《A Transductive Approach for Video Object Segmentation》论文笔记

本文介绍了《A Transductive Approach for Video Object Segmentation》的论文笔记,提出了一种不需要额外模块或数据的传导方法,利用特征相似性进行像素信息传导,实现视频分割。这种方法在DAVIS-2017上取得了良好效果,但infer时可能因存储和计算需求影响速度。
摘要由CSDN通过智能技术生成

参考代码:transductive-vos.pytorch

1. 概述

导读:现有的很多视频分割算法是依赖在外部训练好的额外模块实现的,如光流网络与实例分割,这就导致了这些方法在传统基准上无法与其它方法媲美。为此文章提出了一个简单且强大的传导方法来解决这个问题,这个方法不需要额外的子计网络模块,数据,或是专用的网络结构。在文章的方法使用标注传导的方式,它是在特征空间上基于特征相似性实现分割中像素信息的传导。与之前的一些短依赖不同的是文章采用了“全局”的方式,将较为长期的目标特性考虑在内,从而有较好的帧间一致性。但是,有一点问题就是需要在infer前需要一些计算量,在Titan XP GPU上能跑到37 FPS(backbone为ResNet-50,在ImageNet上预训练),在DAVIS-2017 val上达到了72.3%,test上达到了63.1%,效果还是很不错的。

在视频分割中有两个基本的前提假设:1)相邻两帧之间的label差异很小,动作的连续性;2)视频帧中的相同区域中应该有相同的标签;因而在视频分割中局部和全局的依赖是比较核心的概念,它将视频分割提供了充足且平滑的相关性分布,因而就可以在未标注的后序视频数据上进行预测。

这篇文章中的局部依赖来自于空间与运动的先验,这是基于空间上的邻域像素具有相同的标签,并且时序上相隔较远的帧在空间上的联系较弱。而全局依赖是目标的视觉外在特征,这是通过在训练数据上使用卷积网络得到的。

网络在infer的时候也是需要将目标的mask放在建立的空间时序特征上进行的,但是现有的很多分割算法它们已建立依赖要么是相邻的两帧,要么就是开头给定的参考帧,这就会导致mask推导信息的丢失,从而使得对目标形变和遮挡的鲁棒性不是很好。文章的方法与之前的方法进行比较,其差异见下图2所示:
在这里插入图片描述
而在文章中是使用从开始帧到当前帧的所有信息进行mask传导,但为了减少计算量分割网络会对当前帧的邻近帧密集采样,那些时序上相对较远的帧就采样相对稀疏

经过上面思路的改进,则将文章的方法与之前的方法进行比较其性能(DAVIS-2017)比较见下图所示:
在这里插入图片描述
PS:文章给出的算法确实是很快的,主要因为文章的网络部分就十分的简单,stride=8的backbone直接输出,之后就是一些矩阵运算计算相似性。但是在infer的时候需要存储较多的之前帧的特征图与之前帧的label,以及一些矩阵运算,这些会不会拖慢整个算法流程在手机等设备上的速度呢? 需要进一步移植实验-_-||。

2. 方法设计

2.1 可传导的推理框架

这里给出了一个通过给出的部分标注数据进行半监督的推导模型,之后的视频分割就是在这个基础上发展而来的,算是文章提出的视频分割算法的理论基础。

对于一个给定的数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x l , y l ) , x l + 1 , … , x n } D=\{(x_1,y_1),(x_2,y_2),(x_l,y_l),x_{l+1},\dots,x_n\} D={ (x1,y1),(x2,y2),(xl,yl),xl+1,,xn},也就是给出前 l l l个有标注的数据(看作先验知识),之后的 n − l n-l nl个数据时候没有对应的标注信息的,就是需要使用这个序列进行位置标注推导。因而这个推导计算过程描述为:
Q ( y ^ ) = ∑ i , j n w i , j ∣ ∣ y i ^ d i + y j ^ d j ∣ ∣ 2 + μ ∑ i = 1 l ∣ ∣ y i ^ − y i ∣ ∣ 2 Q(\hat{y})=\sum_{i,j}^nw_{i,j}||\frac{\hat{y_i}}{\sqrt{d_i}}+\frac{\hat{y_j}}{\sqrt{d_j}}||^2+\mu \sum_{i=1}^l||\hat{y_i}-y_i||^2 Q(y^)=i,jnwi,jdi yi^+dj

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值