《A Transductive Approach for Video Object Segmentation》论文笔记

最新推荐文章于 2021-06-18 09:32:50 发布

m_buddy

最新推荐文章于 2021-06-18 09:32:50 发布

阅读量1.2k

点赞数 2

分类专栏：图像&视频分割文章标签： transductive vos

本文链接：https://blog.csdn.net/m_buddy/article/details/106883529

版权

本文介绍了《A Transductive Approach for Video Object Segmentation》的论文笔记，提出了一种不需要额外模块或数据的传导方法，利用特征相似性进行像素信息传导，实现视频分割。这种方法在DAVIS-2017上取得了良好效果，但infer时可能因存储和计算需求影响速度。

摘要由CSDN通过智能技术生成

参考代码：transductive-vos.pytorch

1. 概述

导读：现有的很多视频分割算法是依赖在外部训练好的额外模块实现的，如光流网络与实例分割，这就导致了这些方法在传统基准上无法与其它方法媲美。为此文章提出了一个简单且强大的传导方法来解决这个问题，这个方法不需要额外的子计网络模块，数据，或是专用的网络结构。在文章的方法使用标注传导的方式，它是在特征空间上基于特征相似性实现分割中像素信息的传导。与之前的一些短依赖不同的是文章采用了“全局”的方式，将较为长期的目标特性考虑在内，从而有较好的帧间一致性。但是，有一点问题就是需要在infer前需要一些计算量，在Titan XP GPU上能跑到37 FPS（backbone为ResNet-50，在ImageNet上预训练），在DAVIS-2017 val上达到了72.3%，test上达到了63.1%，效果还是很不错的。

在视频分割中有两个基本的前提假设：1）相邻两帧之间的label差异很小，动作的连续性；2）视频帧中的相同区域中应该有相同的标签；因而在视频分割中局部和全局的依赖是比较核心的概念，它将视频分割提供了充足且平滑的相关性分布，因而就可以在未标注的后序视频数据上进行预测。

这篇文章中的局部依赖来自于空间与运动的先验，这是基于空间上的邻域像素具有相同的标签，并且时序上相隔较远的帧在空间上的联系较弱。而全局依赖是目标的视觉外在特征，这是通过在训练数据上使用卷积网络得到的。

网络在infer的时候也是需要将目标的mask放在建立的空间时序特征上进行的，但是现有的很多分割算法它们已建立依赖要么是相邻的两帧，要么就是开头给定的参考帧，这就会导致mask推导信息的丢失，从而使得对目标形变和遮挡的鲁棒性不是很好。文章的方法与之前的方法进行比较，其差异见下图2所示：
在这里插入图片描述
而在文章中是使用从开始帧到当前帧的所有信息进行mask传导，但为了减少计算量分割网络会对当前帧的邻近帧密集采样，那些时序上相对较远的帧就采样相对稀疏。

经过上面思路的改进，则将文章的方法与之前的方法进行比较其性能（DAVIS-2017）比较见下图所示：
在这里插入图片描述
PS：文章给出的算法确实是很快的，主要因为文章的网络部分就十分的简单，stride=8的backbone直接输出，之后就是一些矩阵运算计算相似性。但是在infer的时候需要存储较多的之前帧的特征图与之前帧的label，以及一些矩阵运算，这些会不会拖慢整个算法流程在手机等设备上的速度呢？ 需要进一步移植实验-_-||。

2. 方法设计

2.1 可传导的推理框架

这里给出了一个通过给出的部分标注数据进行半监督的推导模型，之后的视频分割就是在这个基础上发展而来的，算是文章提出的视频分割算法的理论基础。

对于一个给定的数据集 $D=\{(x_1,y_1),(x_2,y_2),(x_l,y_l),x_{l+1},\dots,x_n\}$ ，也就是给出前 $l$ 个有标注的数据（看作先验知识），之后的 $n - l$ 个数据时候没有对应的标注信息的，就是需要使用这个序列进行位置标注推导。因而这个推导计算过程描述为：
$Q(\hat{y})=\sum_{i,j}^nw_{i,j}||\frac{\hat{y_i}}{\sqrt{d_i}}+\frac{\hat{y_j}}{\sqrt{d_j}}||^2+\mu \sum_{i=1}^l||\hat{y_i}-y_i||^2$