论文阅读:Tracking-assisted Weakly Supervised Online Visual Object Segmentation in Unconstrained Videos

论文名字

Tracking-assisted Weakly Supervised Online Visual Object Segmentation in Unconstrained Videos

来源

2018 ACM Multimedia Conference 顶会

年份

2018.10

作者

Zongpu Zhang, Yang Hua, Tao Song, Zhengui Xue, Ruhui Ma, Neil Robertson, Haibing Guan

核心点

提出一种将目标分割模块和通用的目标跟踪模块相结合的方法。

阅读日期

2020.11.2

影响因子

 

页数

9

引用数

2

内容总结

文章主要解决的问题及解决方案:

本文解决了弱监督下的在线视频对象分割问题,提出一种新颖的跟踪辅助视觉对象的分割框架。

 

文章的主要工作:

 

文章内容:

①弱监督:在无约束视频中以像素级精度标记目标对象和背景,只在第一帧里给边界框(bounding box)的信息。半监督仅需要整个视频序列里的第一帧的对象的mask,半监督方法可以聚焦于目标对象,而不会在分割结果中引入不想要的对象。半监督缺点:半监督方法的结果往往退化成小块,因为监督方法中使用的指导信息缺乏不断更新。而且用户在第一帧准备完整的对象mask还是比较繁琐的。

②无监督:无监督学习依赖,运动(motion)、显著性(saliency)、objectness。早期无监督方法使用motion包括几帧之间的光流(optical flow)。他们假设对象运动(前景)与周围事物(背景)是不相同的。因此,它们容易受到运动误差的影响,并且如果对象与背景具有相似的运动,它们也不能识别对象。最近,结合运动和外观信息的双流模型在无监督视频分割中变得流行。[21]FlowNet是无监督学习,但它在低质量视频中的表现仍然不稳定,这阻碍了这种方法的实际应用。

③本文的方法:提出一种将目标分割模块和通用的目标跟踪模块相结合的方法。通过目标跟踪模块为分割模块提供连续的指导。它可以在不计算光流和区域信息的情况下提供一定的运动信息,避免半监督方法中的退化问题。只需要一个边界框作为第一帧的输入,减少注释的负担。

④本文提出的方法中的创新点,在第一帧中用给定的边界框初始化,辅助对象跟踪模块通过提供运动和区域信息逐帧地引导分割模块,这是在半监督方法中缺失的。此方法与半监督相比,这种最小监督方法可以聚焦于目标对象,不会将不相关的带入最后的结果。

⑤本文使用两个跨域数据集,DAVIS和VOT2016

⑥图2-(2)的网络用于跟踪物体。图2-(3)它引导分割聚焦于目标周围的较小的区域。经过外观网络和轮廓网络后,获得图2-(5)的分割结果图,一个mask。如图2-(6)跟踪器通过定位预测目标位置周围的连接mask来细化分割,而分割根据mask的外部界限更新跟踪器的目标位置,这导致图2-(7)中跟踪器和分割的输出。

采用OSVOS和ECO(第二步)作为分割模块和通过跟踪模块。

⑧OSVOS包含两个主要部分,即外观网络和轮廓网络。OSVOS以VGG网络为主干构建外观网络,并将其与一系列用DAVIS数据集训练的反卷积层连接起来,用于像素级输出。

OSVOS是一种半监督的方法,它在第一帧利用完整的GT(ground truth)的mask将基础网络微调为一个更具体的网络,即“父网络”。

OSVOS构建具有VGG Net的轮廓网络,该网络用PASCAL-Context训练。

轮廓网络通过Ultrametric Contour Map(UCM)细化外观网络的输出,从而生成最终的分割结果。

⑨因为DAVIS使用的是高分辨率、清晰的对象外观和有限的相机移动的图像数据,所以为了进一步提高所提出框架的通用性,我们采用101层残差网络[19] (ResNet)代替OSVOS中的VGG网络,并用包含更多对象和场景的微软COCO 2017数据集[28]对其进行训练。

⑩跟踪辅助分割框架:用输入的边界框生成的mask对父网络作为微调。在接下来的帧中,分割区域通过在从跟踪器获得的目标位置周围进行裁剪来引导。然后分割网络生成一个mask,并从轮廓网络捕捉轮廓响应。之后,跟踪器和分割通过以下方式共同细化结果:(1)移动跟踪器提供的边界框(bounding box),以覆盖边界框内尽可能多的与mask连接的像素,以及(2)排除分割提供的边界框(bounding box)外的像素,以更好地聚焦于感兴趣的目标。

为指导分割,选择一个比跟踪边界框大三倍的裁剪区域。然后调整裁剪区域的大小以适应分割网络的输入维度。

使用101层ResNet在ILSVRC上预训练,作为基础网络。并用反卷积替换其他全连接层。

使用coco2017数据集的masks来训练反卷积层。

 

实验结果:

表1的实验结果表明,使用ResNet和使用跟踪模块辅助分割能使平均区域相似度(J)提升明显。

 

附录:

  • 半监督方法:双流CNN半监督方法[5]OSVOS和MSK[31],他们都是用预训练的网络,在第一帧中微调。MSK用光流补充运动信息。
  • 无监督方法:[13]FSEG提出双流深度学习框架,结合运动信息和外观。[39]LVO
  • 弱监督方法:[34][9][1]
  • 视觉目标跟踪方法:[14]、[26,27,43]、[10]
  • 原文链接:https://dl.acm.org/doi/abs/10.1145/3240508.3240638

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三金samkam

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值