SiamMask
1.摘要
-
简单方法实时执行视觉对象跟踪和半监督视频对象分割。
-
通过二进制分割任务增加损失,改进用于目标跟踪的全卷积方法离线训练过程。
-
一旦训练,Siammask完全依赖于单个边界框初始化并在线操作,以每秒55帧的速度产生类别不可知的对象分割遮罩和旋转的边界框。
-
简单,多功能,速度快。
-
VOT-2018;
2.介绍
-
跟踪需要在帧之间建立对象对应关系。
-
视觉目标跟踪的目的是以最佳可能的精度估计其在所有后续帧的位置。
-
用简单的轴对齐或旋转边界框来表示目标对象,有助于保持数据标记的低成本。
-
允许用户对目标进行快速简单的初始化。
- 与ECO不同,siammask能够产生二进制分割掩膜,更好描述目标对象。
-
半监督视频对象分割**(VOS)**任务:在视频的第一帧中指定的任意目标的位置。(VOS方法传统上很慢,每帧需要几秒钟)此时对象表示由表示像素是否属于目标的二进制分割掩膜组成。
-
提出:
- 多任务学习方法siammask,缩小任意目标跟踪和VOS之间的差距。
- 该方法基于对数百万对视频帧进行离线训练的全卷积网络。
- 数据集YouTube-VOS,带有像素式注释的大型视频数据集。
- 目标:保留这些方法的离线可训练性和在线速度,同时显著改进他们对目标对象的表示,目标对象被限制维简单的轴对齐的包围盒。
- 任务:
- 训练一个卷积网络执行三项任务,每项任务对应一个不同的策略,以在新帧中建立目标对象和候选区域之间的对应关系。
- 一个任务是以滑动窗口方式学习目标对象和多个候选对象之间的相似性度量。输出是一个密集的响应图,它只指示物体的位置,而不提供关于其空间范围的任何信息。
- 同时学习两个任务:使用区域建议网络的包围盒回归和类别不可知的二进制分割。
- 仅在离线期间需要二进制标签,以在分割/跟踪期间计算分割损失和不在线,
- 在提出的架构中,每个任务由从共享CNN出发的不同分支表示,并且对最终损失有贡献,最终损失将三个输出加在一起
- 一旦被训练,SiamMask仅依赖于单个边界框初始化,在线操作而无需更新,并以每秒55帧的速度产生对象分割遮罩和旋转的边界框
3.相关工作
-
视觉目标跟踪:
- 跟踪任意对象的最流行的范数:从视频的第一帧中提供的地面真相信息在线训练一个区分分类器,然后在线更新。
- 基于相关滤波的算法(区分任意目标的模板和其2D),采用多通道公式,空间约束,深度特征。
- 引入一种完全不同的方法:不是在线学习判别分类器,而是离线训练成对视频帧的相似性函数,在测试时,该函数可以简单地在新视频上评估,每帧一次。特别是,通过利用区域建议[28]、硬负挖掘[63]、集成[15]和记忆网络[60],全卷积连体方法[3]的发展大大提高了跟踪性能。
- 大多数现代跟踪器,包括上面提到的所有跟踪器,都使用一个矩形边界框来初始化目标,并估计它在后续帧中的位置。尽管简单的矩形很方便,但是它经常不能正确地表示一个对象,这在图1的例子中很明显。这促使我们提出一种跟踪器,它能够产生二进制分割掩模,同时仍然只依赖于边界框初始化。
-
半监督视频对象分割:给定用户感兴趣物体在视频第一帧的分割区域,算法来获取在后续帧上的物体分割区域。
- 在线学习:
根据第一帧物体的gt,利用one-shot learning的策略来fine-tune分割模型。例如Lucid data dreaming,OSVOS,PreMVOS等。在线学习算法针对每个物体单独训练模型,可以达到很高的分割准确率。缺点是耗时。
- 非在线学习:
模型事先训练好,不需要针对样本进行fine-tune,具有更好的实时性。
- 半监督缺点:需要第一帧物体区域的gt,无法应用于实际应用。
-
. 交互式视频物体分割
特点:不是单一算法,而是多种算法有机融合的解决方案,包括交互式VOS、半监督VOS、交互式视频物体区域传递算法等。
优点:
- 半监督VOS需要物体第一帧的gt,实用中获取比较麻烦。而交互式VOS只需要用户的简单交互,非常容易达到。
- 交互式VOS可以通过多次交互,达到非常高的分割准确率。高精度的分割结果能提供更好的用户体验,才是用户需要的结果。
-
前者使用元网络“调制器”在测试期间快速调整分段网络的参数,而后者不使用任何微调,并采用多级训练的编码器-解码器连体结构。这两种方法的运行速度都低于每秒10帧,而我们的速度要快六倍以上,并且只依赖于边界框初始化。
4.方法
-
SiamFC:提出离线训练的全卷积网络作为跟踪系统的基本构建模块,该网络将样本图像与(较大的)搜索图像进行比较,以获得密集响应图。两个输入由相同的CNN处理,产生两个互相关的特征图。
- 用深度互相关代替简单互相关,产生多通道响应图。
- SiamFC通过对数百万个视频帧进行离线训练,具有逻辑损失。
-
SiamRPN:依靠区域建议网络(RPN),大大提高SiamFC性能,该网络允许使用可变纵横比的边界框来估计目标位置。
-
用该分段分支和lossLmask来扩充SiamFC和SiamRPN的构架。称之为SiamMask的二分支和三分支变体。
-
从二进制掩码生成边界框
- 轴对齐的边界矩形(最大-最小)
- 旋转最小边界矩形(MBR)
- VOT2016中提出的用于自动边界框生成的优化策略
5.实验细节
- 网络架构:使用ResNet-50知道第四级的最后一个卷积层作为主干。在主干上增加了一个非共享调整层。
6.总结
SiamMask:使全卷积网络跟踪器能够产生目标对象的类别不可知的二进制分割掩膜。
- 如何应用于视觉对象跟踪和半监督视频对象分割
- SiamMask的两个变体用简单的边界框初始化,在线操作,实时运行,不需要对测试序列进行任何调整。