第七周进展报告 Tracking-assisted Weakly Supervised Online Visual Object Segmentation in Unconstrained Video

最新推荐文章于 2021-07-13 17:10:17 发布

三金samkam

最新推荐文章于 2021-07-13 17:10:17 发布

阅读量219

点赞数 1

分类专栏：论文阅读文章标签：机器学习人工智能深度学习计算机视觉论文阅读

本文链接：https://blog.csdn.net/qq_39715243/article/details/109535951

版权

论文阅读专栏收录该内容

50 篇文章 18 订阅

订阅专栏

第七周工作进展报告

本周主要对视频中的语义分割进行研究。视频中的对象分割分为四类方法，分别是无监督方法、有监督方法、半监督方法、基于跟踪的分割方法（属于弱监督方法）。无监督方法依赖物体运动特征、显著性、光流等因素对前背景进行分割，早期无监督方法使用运动特征包括几帧之间的光流（optical flow）。他们假设对象运动（前景）与周围事物（背景）是不相同的。因此，它们容易受到运动误差的影响，并且如果对象与背景具有相似的运动，它们也不能识别对象。半监督方法是仅需要整个视频序列里的第一帧的对象的掩模（mask），半监督方法可以聚焦于目标对象，而不会在分割结果中引入不想要的对象。半监督缺点：半监督方法的结果往往退化成小块，因为监督方法中使用的指导信息缺乏不断更新。而且用户在第一帧准备完整的对象掩模（mask）还是比较繁琐的。有监督方法是在视频每一帧都有相对于的掩模（mask）作为标签数据，因此其精度高，但可用数据集少，人工标注数据集的工作量大。而基于跟踪的分割方法是将目标分割模块和通用的目标跟踪模块相结合。通过目标跟踪模块为分割模块提供连续的指导。它可以在不计算光流和区域信息的情况下提供一定的运动信息，避免半监督方法中的退化问题。只需要一个边界框作为第一帧的输入，减少做标签标注的负担。

在“Tracking-assisted Weakly Supervised Online Visual Object Segmentation in Unconstrained Videos”一文中，作者提出了一种基于跟踪的分割方法，其将目标分割模块和通用的目标跟踪模块相结合。文中提出的网络模型如图1所示，图1-（2）的网络用于跟踪物体。图1-（3）它引导分割聚焦于目标周围的较小的区域。经过外观网络和轮廓网络后，获得图1-（5）的分割结果图，一个mask。如图1-（6）跟踪器通过定位预测目标位置周围的连接掩模（mask）来细化分割，而分割根据mask的外部界限更新跟踪器的目标位置，这导致图1-（7）中跟踪器和分割的输出。

图1 网络模型

其中跟踪网络用的是ECO跟踪模块，分割网络用的是OSVOS分割模块。OSVOS包含两个主要部分，即外观网络和轮廓网络。以ResNet为主干构建外观网络，并将其在ILSVRC上做预训练，其反卷积部分使用包含更多对象和场景的微软COCO 2017数据集进行训练。同样以ResNet为主干构建轮廓网络，该网络用PASCAL-Context训练。

跟踪辅助分割框架：用输入的边界框生成的mask对父网络作为微调。在接下来的帧中，分割区域通过在从跟踪器获得的目标位置周围进行裁剪来引导。然后分割网络生成一个mask，并从轮廓网络捕捉轮廓响应。之后，跟踪器和分割通过以下方式共同细化结果:(1)移动跟踪器提供的边界框（bounding box），以覆盖边界框内尽可能多的与mask连接的像素，以及(2)排除分割提供的边界框（bounding box）外的像素，以更好地聚焦于感兴趣的目标。

本文提出的方法中的创新点是，在第一帧中用给定的边界框初始化，辅助对象跟踪模块通过提供运动和区域信息逐帧地引导分割模块，这是在半监督方法中缺失的。此方法与半监督相比，这种最小监督方法可以聚焦于目标对象，不会将不相关的带入最后的结果。

在“FusionSeg: Learning to combine motion and appearance for fully automatic segmentation of generic objects in videos”一文中，提出一种结合外观和运动信息的无监督网络对视频中的对象进行分割。网络模型如图2所示，网络由外观分支和运动分支双流结构组成，上下双流结构都是由用ImageNet预训练的ResNet-101作为基础网络，外观网络的输入是RGB图像，训练时使用PASCAL VOC 2012分割数据集，而运动分支同样用ImageNet预训练的ResNet-101作为基础网络，但其输入是光流图，最终结合两分支的特征图像，得到分割图。

图2 网络模型

由于视频分割图像数据量少，所以作者提出利用现场的图像分割注释和弱注释的视频数据来训练网络模型。如图3所示，利用视频数据集（ImageNet-video），它是带有每个对象标记的边界框的视频数据集，忽略类别标签，将边界框映射到每个帧。将这些图像数据输入外观网络进行分割，并结合数据集中原有的边界框，仅提出重叠部分大于等于75%，小于等于95%的部分图像，经过计算帧的光流，转换为RGB的光流图，得到最终的光流数据，可用于运动网络的输入。

图3 光流图的产生

本文提出的方法中的创新点是，提出一种结合外观和运动信息的无监督网络，并提出了解决视频分割数据集较少的方法。

三金samkam

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第七周进展报告 Tracking-assisted Weakly Supervised Online Visual Object Segmentation in Unconstrained Video

第七周工作进展报告本周主要对视频中的语义分割进行研究。视频中的对象分割分为四类方法，分别是无监督方法、有监督方法、半监督方法、基于跟踪的分割方法（属于弱监督方法）。无监督方法依赖物体运动特征、显著性、光流等因素对前背景进行分割，早期无监督方法使用运动特征包括几帧之间的光流（optical flow）。他们假设对象运动（前景）与周围事物（背景）是不相同的。因此，它们容易受到运动误差的影响，并且如果对象与背景具有相似的运动，它们也不能识别对象。半监督方法是仅需要整个视频序列里的第一帧的对象的掩模（mask）
复制链接

扫一扫