论文名字 | Tracking-assisted Weakly Supervised Online Visual Object Segmentation in Unconstrained Videos |
来源 | 2018 ACM Multimedia Conference 顶会 |
年份 | 2018.10 |
作者 | Zongpu Zhang, Yang Hua, Tao Song, Zhengui Xue, Ruhui Ma, Neil Robertson, Haibing Guan |
核心点 | 提出一种将目标分割模块和通用的目标跟踪模块相结合的方法。 |
阅读日期 | 2020.11.2 |
影响因子 |
|
页数 | 9 |
引用数 | 2 |
内容总结 | |
文章主要解决的问题及解决方案: 本文解决了弱监督下的在线视频对象分割问题,提出一种新颖的跟踪辅助视觉对象的分割框架。
文章的主要工作:
文章内容: ①弱监督: ②无监督:无监督学习依赖,运动(motion)、显著性(saliency)、objectness。早期无监督方法使用motion包括几帧之间的光流(optical flow)。他们假设对象运动(前景)与周围事物(背景)是不相同的。因此,它们容易受到运动误差的影响,并且如果对象与背景具有相似的运动,它们也不能识别对象。最近,结合运动和外观信息的双流模型在无监督视频分割中变得流行。[21]FlowNet是无监督学习,但它在低质量视频中的表现仍然不稳定,这阻碍了这种方法的实际应用。 ③本文的方法:提出一种将目标分割模块和通用的目标跟踪模块相结合的方法。通过目标跟踪模块为分割模块提供连续的指导。它可以在不计算光流和区域信息的情况下提供一定的运动信息,避免半监督方法中的退化问题。只需要一个边界框作为第一帧的输入,减少注释的负担。 ④本文提出的方法中的创新点,在第一帧中用给定的边界框初始化,辅助对象跟踪模块通过提供运动和区域信息逐帧地引导分割模块,这是在半监督方法中缺失的。此方法与半监督相比,这种最小监督方法可以聚焦于目标对象,不会将不相关的带入最后的结果。 ⑤本文使用两个跨域数据集,DAVIS和VOT2016 ⑥图2-(2)的网络用于跟踪物体。图2-(3)它引导分割聚焦于目标周围的较小的区域。经过外观网络和轮廓网络后,获得图2-(5)的分割结果图,一个mask。如图2-(6)跟踪器通过定位预测目标位置周围的连接mask来细化分割,而分割根据mask的外部界限更新跟踪器的目标位置,这导致图2-(7)中跟踪器和分割的输出。 采用OSVOS和ECO(第二步)作为分割模块和通过跟踪模块。 ⑧OSVOS包含两个主要部分,即外观网络和轮廓网络。OSVOS以VGG网络为主干构建外观网络,并将其与一系列用DAVIS数据集训练的反卷积层连接起来,用于像素级输出。 OSVOS是一种半监督的方法,它在第一帧利用完整的GT(ground truth)的mask将基础网络微调为一个更具体的网络,即“父网络”。 OSVOS构建具有VGG Net的轮廓网络,该网络用PASCAL-Context训练。 轮廓网络通过Ultrametric Contour Map(UCM)细化外观网络的输出,从而生成最终的分割结果。 ⑨因为DAVIS使用的是高分辨率、清晰的对象外观和有限的相机移动的图像数据,所以为了进一步提高所提出框架的通用性,我们采用101层残差网络[19] (ResNet)代替OSVOS中的VGG网络,并用包含更多对象和场景的微软COCO 2017数据集[28]对其进行训练。 ⑩跟踪辅助分割框架:用输入的边界框生成的mask对父网络作为微调。在接下来的帧中,分割区域通过在从跟踪器获得的目标位置周围进行裁剪来引导。然后分割网络生成一个mask,并从轮廓网络捕捉轮廓响应。之后,跟踪器和分割通过以下方式共同细化结果:(1)移动跟踪器提供的边界框(bounding box),以覆盖边界框内尽可能多的与mask连接的像素,以及(2)排除分割提供的边界框(bounding box)外的像素,以更好地聚焦于感兴趣的目标。 为指导分割,选择一个比跟踪边界框大三倍的裁剪区域。然后调整裁剪区域的大小以适应分割网络的输入维度。 使用101层ResNet在ILSVRC上预训练,作为基础网络。并用反卷积替换其他全连接层。 使用coco2017数据集的masks来训练反卷积层。
实验结果: 表1的实验结果表明,使用ResNet和使用跟踪模块辅助分割能使平均区域相似度(J)提升明显。
附录:
|