Fast Online Object Tracking and Segmentation: A Unifying Approach
文章链接: https://arxiv.org/pdf/1812.05050.pdf
译文
摘要
在本文中,我们将介绍如何使用一种简单的方法进行实时的视觉对象跟踪和半监督视频对象分割。我们的方法,称为SiamMask,通过二进制分割任务增加它们的损失,改进了流行的全卷积Siamese对象跟踪方法的离线训练过程。一旦训练,SiamMask只依赖于一个边界框初始化并在线操作,以每秒55帧的速度生成类不可知对象分割遮罩和旋转边界框。 虽然它简单、通用且速度快,我们的策略允许我们在VOT-2018上建立一种新的实时跟踪技术,同时展示了在DAVIS-2016和DAVIS-2017上的半监督视频对象分割任务的竞争性能和最佳速度。 项目网址是http://http://www.robots.ox.ac.uk/~qwang/SiamMask/。
引言
跟踪是任何视频应用中的基本任务,需要对感兴趣的对象进行一定程度的推理,因为它允许在帧之间建立对象对应[34]。 它适用于各种场景,如自动监控,车辆导航,视频标签,人机交互和活动识别。 给定视频的第一帧中任意感兴趣目标的位置,视觉对象跟踪的目的是以尽可能高的精度估计其在所有后续帧中的位置[48]。
对于许多应用程序,可以在视频流式传输的同时在线执行跟踪是非常重要的。换句话说,跟踪器不应该使用未来的帧来推断对象的当前位置[26]。 这是由视觉对象跟踪基准描绘的场景,它表示具有简单轴对齐(例如[56,52])或旋转[26,27]边界框的目标对象。 这种简单的注释有助于降低数据标记的成本; 更重要的是,它允许用户执行目标快速且简单的初始化。
与对象跟踪类似,半监督视频对象分割(VOS)的任务需要估计在视频的第一帧中指定的任意目标的位置。 然而,在这种情况下,对象表示由二进制分割掩码组成,该掩码表示决定一个像素是否属于目标[40]。 这种详细的表示对于需要像素级信息的应用更为理想,例如视频编辑[38]和rotoscoping [37]。这是可以理解的,生成像素级估计需要比简单边界框更多的计算资源。 因此,VOS方法传统上很慢,每帧通常需要几秒钟(例如[55,50,39,1])。 最近,人们对更快的方法产生了兴趣[59,36,57,8,7,22,21]。 但是,即使是最快的仍然无法进行实时操作。
在本文中,我们旨在通过提出SiamMask来缩小任意对象跟踪与VOS之间的差距,这是一种简单的多任务学习方法,可用于解决这两个问题。 我们的方法的动机是基于在数百万对视频帧(e.g. [28, 63, 15, 60]) 上进行离线训练的完全卷积的Siamese网络 [3] 的快速跟踪方法的成功,以及YouTube VOS [58](一个具有像素注释的大型视频数据集)的最新可用性。我们的目标是保留这些方法的可训练性和在线速度,同时显着地重新确定它们对目标物体的表示,目标物体仅限于简单的轴对齐边界框。
为了实现这一目标,我们同时在三个任务上训练Siamese网络,每个任务对应于不同的策略,以在新帧中建立目标对象和候选区域之间的对应关系。正如Bertinetto等人 [3]的完全卷积方法一样,一个任务是以滑动窗口的方式学习目标对象和多个候选者之间的相似性度量。输出是一个密集的响应图,它只指示对象的位置,而不提供有关其空间范围的任何信息。为了重新定义这些信息,我们同时学习了两个进一步的任务:使用Region Proposal Network [46,28]和classagnostic二元分割[43]进行边界框回归。值得注意的是,二进制标签仅在离线训练期间用于计算分段丢失,而不是在分段/跟踪期间在线。在我们提出的架构中,每一个任务由一个分支来表现,它们都基于一个共享的CNN,最后由一个最终损失值汇总计算(将这三个输出加在一起)。
训练时,SiamMask只依赖于一个边界框初始化并在线操作,以每秒55帧的速度生成对象的mask和旋转边界框。尽管SiamMask具有简单和快速的特点,但它在VOT-2018上为实时物体跟踪问题建立了一种新的先进技术。 此外,相同的方法与DAVIS-2016和DAVIS-2017上最近的半监督VOS方法相比也具有很强的竞争力,同时也是最快的。 这个结果是通过简单的边界框初始化(与掩模相反)实现的,并且没有采用VOS方法常用的昂贵技术,如微调[35,39,1,53],数据增强[23,30]和 光学流[50,1,39,30,8]。
本文的其余部分组织如下。 第2节简要概述了视觉对象跟踪和半监督VOS中一些最相关的先验工作; 第3节描述了我们的提议; 第4节4个benchmarks 上对我们的方法进行了评估; 第5节总结了论文。
相关工作
在本节中,我们简要介绍了本文讨论的两个问题的最具代表性的技术。
视觉对象跟踪。可以说,直到最近,最流行的跟踪任意对象的模式是在线培训一个只有视频第一帧中提供的Ground truth信息的判别类(然后在线更新)。
在过去几年中,相关滤波器是一种简单的算法,可以区分任意目标的模板及其2D平移,由于开创性的工作,它成为特别快速有效的检测跟踪策略。 Bolme等人。 [4]。基于相关性的性能随着采用多通道配方[24,20],空间约束[25,13,33,29]和深度特征(例如[12,51]),基于滤波器的跟踪器得到了显着改善。
最近,引入了一种截然不同的方法[3,19,49]。这些方法不是在线学习描述性分类,而是在成对的视频帧上进行相似性功能训练。在测试时,可以在新帧上简单地评估此功能,每帧一次。特别是,完全卷积暹罗方法的演变[3]通过利用区域提案[28],硬负面挖掘[63],集合[15]和记忆网络[60],大大提高了跟踪性能。
在过去的几年中,由于Bolme等人[4]的开创性工作,相关滤波器(correlation filter)作为一种能够区分任意目标模板及其二维翻译的简单算法,一种特别快速有效的检测跟踪策略而备受关注。通过采用多通道公式[24,20]、空间约束[25,13,33,29]和深度特征(例如[12,51]),基于相关滤波器的跟踪器的性能得到了显著改善。
最近,[3,19,49]引入了一种截然不同的方法。 这些方法不是在线学习辨别性分类,而是在成对的视频帧上训练一个相似性函数。 在测试时,可以在新帧上简单地评估这个函数,每帧一次。 特别地,通过利用区域建议[28]、硬负面挖掘[63]、集成[15]和存记忆网络[60],完全卷积Siamese方法[3]的跟踪性能得到了显著地提高。
大多数现代跟踪器,包括上面提到的所有跟踪器,都使用矩形边界框来初始化目标并估计其在后续帧中的位置。 尽管方便,但是简单的矩形通常不能正确地表示对象,这在图1的示例中是显而易见的。这促使我们提出能够产生二进制分割mask的跟踪器,同时仍然只依赖于边界框初始化。
有趣的是,在过去,跟踪器生成目标对象的粗二进制掩码并不罕见(例如[11,42])。 然而,据我们所知,最近唯一跟我们一样的能够在线操作并从边界框初始化开始生成二元掩模的追踪器,是Yeo等人 [61]的基于超像素的方法。 但是,该方法最快只有每秒4帧(fps),比我们的方法慢很多。 此外,当使用CNN特征时,其速度会受到降低60倍的影响,直线下降至0.1 fps以下。 最后,它还没有证明在现代跟踪或VOS基准测试中具有竞争力。 与我们类似,Perazzi 等人[39]和Ci 等人[10]的方法也可以从矩形和每帧输出掩码开始。 但是,它们需要在测试时进行微调,这会使它们变慢。
半监督视频对象分割。 任意物体跟踪 benchmarks(例如[48,26,56])假设跟踪器以顺序方式接收输入帧。 这个方面通常用在线或因果属性来表示[26]。 此外,方法通常侧重于实现超过典型视频帧速率的速度[27]。 相反,半监督VOS算法传统上更关注感兴趣对象的准确表示[38,40]。
为了利用视频帧之间的一致性,若干方法通过图标记方法(例如[55,41,50,36,1])将第一帧的监督分割mask传播到时间上相邻的mask上去。 特别是鲍等人 [1]最近提出了一种非常精确的方法:时空MRF方法,其时间依赖性由光流建模,而空间依赖性由CNN表示。
另一种流行的策略是独立处理视频帧(例如[35,39,53]),类似于大多数跟踪方法中发生的情况。 例如,在OSVOS-S中,Maninis [35]不使用任何时间信息。他们依靠一个经过预先培训的完全卷积网络进行分类,然后在测试时,他们使用第一帧中提供的ground-truth mask进行调整。而masktrack[39]则是在单个图像上从头开始训练的,但它确实利用了测试时某种形式的临时性,将最新的掩模预测和光流作为网络的附加输入。
为了获得尽可能高的精度,在测试时VOS方法通常采用计算密集型技术,如微调[35,39,1,53],数据增强[23,30]和光流[50,1,39,30,8]。因此,这些方法的特点通常是低帧率和无法在线操作。例如,对于本来只需花费几秒的视频,如戴维斯的视频,这种方法通常需要花几分钟[39,9]甚至几小时[50,1]。
最近,VOS社区越来越关注更快的方法[36,57,8,7,22,21]。 据我们所知,具有与现有技术竞争力的最快速的方法是Yang等人[59]和Wug等人[57]的方法 。 前者使用元网络“调制器”在测试时间内快速调整分段网络的参数,而后者不使用任何微调并采用在多个阶段训练的编码器 - 解码器Siamese架构。 这两种方法都以低于每秒10帧的速度运行,而我们的速度提高了6倍以上,并且只依赖于边界框初始化。
方法
为了实现在线可操作性和快速性,我们采用了完全卷积的Siamese框架[3]。 此外,为了说明我们的方法对用作起点的特定完全卷积方法不可知(例如[3,28,63,60,16]),我们将流行的siamfc[3]和siamrpn[28]作为两个代表性示例。我们首先在第3.1节中介绍它们,然后在第3.2节中描述我们的方法。
全卷积Siamese网络
SiamFC。 Bertineto等人[3]建议使用一个离线训练的完全卷积的Siamese网络,作为跟踪系统的基本组成部分,它将一个样例图像Z与(较大的)搜索图像X进行比较,以获得密集的响应图。z是以目标对象为中心的w×h裁剪图,x是以目标的最后估计位置为中心的较大裁剪图。 这两个输入由相同的cnn fθ处理,生成两个相互关联的特征图:
在本文中,我们将响应图的每个空间元素(等式1的左侧)称为候选窗口的响应(RoW)。例如,g_n ^θ(z,x)将样例z和x中第n个候选窗口进行相似性编码。对于SiamFC,response map 上的最大值就对应着目标物体在搜索区域x上的位置。相反,为了允许每个RoW包含关于目标对象的更丰富的信息,我们将Eq.1的简单互相关替换为深度交叉相关[2],并产生一个多通道响应图。 SiamFC在数百万视频帧上用logistic loss进行离线训练,我们将其称为L_sim。
SiamRPN。 Li等人 [28]通过采用区域提案网络(RPN)[46,14]大大提高了SiamFC的性能,该网络允许用可变长宽比的边界框估计目标位置。 特别地,在SiamRPN中,每个RoW编码一组k个anchor box候选区和相应的对象/背景置信度。 因此,SiamRPN并行输出边框预测和分类分数,使用平滑L1和交叉熵损失训练两个输出分支[28,第3.2节]。 在下文中,我们分别将它们称为Lbox和Lscore。
SiamMask
与依赖于低质量对象表示的现有跟踪方法不同,我们认为生成每帧的二进制分割mask非常重要。为此我们证明,除了相似性得分和边界框坐标之外,完全卷积Siamese网络的RoW也能编码产生像素级二元mask所需的信息。 这可以用一个额外的分支和损失函数扩展现有的Siamese跟踪器来实现。
我们通过一个简单的两层神经网络hφ和学习参数φ来预测w×h的二元masks(每个RoW一个)。 设mn表示对应于第n个RoW的预测的mask,
从公式2可以看出,mask的预测是一个函数,该函数由用于分割的图像X和Z中的额目标物体组成。 通过这种方式,z可以引导分割过程:给定不同的参考图像,网络将为x产生不同的分割掩模(任意类别的物体都可以被追踪到)。
损失函数。
在训练期间,每个RoW都标记有ground-truth二元标记yn∈{±1}以及一个像素级的ground-truth mask cn,大小为w×h。令cijn∈{±1}表示与第n个候选RoW中的对象掩码的像素(i,j)对应的标签。 mask预测任务的损失函数Lmask(Eq.3)是覆盖所有RoWs的二元逻辑回归损失:
因此,hφ的分类层由w×h个分类器组成,每个分类器指示给定像素是否属于候选窗口中的对象。 注意,仅对正的RoWs(即yn = 1)考虑使用Lmask。
掩码表征。与FCN[32]和Mask RCNN[17]风格的语义分割方法不同,我们的方法在整个网络中保持明确的空间信息,我们的方法遵循[43,44]的精神,从对象的一个平坦的表示开始生成mask。
特别地,在我们的例子中,这个表示对应于由fθ(z)和fθ(x)之间的深度互相关产生的(17×17)行中的一行。重要的是,分割任务的网络Hφ由两个1×1的卷积层组成,一个是256个,另一个是632个通道(图2)。这使得每一个像素类别都可以利用整个RoW中包含的信息,从而在X中有一个对应的候选窗口的完整视图,这对于消除看起来像目标的实例(如图4的最后一行)之间的歧义至关重要,通常被称为干扰。为了产生更精确的物体mask,我们遵循[44]的策略,该策略使用由上采样层和跳过连接组成的多个改进模块来合并低分辨率和高分辨率特征(见附录A)。
两个变体。 对于我们的实验,我们使用我们的分段分支和损失L_mask来扩充SiamFC [3]和SiamRPN [28]的体系结构,获得我们称之为SiamMask的双分支和三分支变体。 这些分别优化了多任务损失L2B和L3B,定义如下:
对于LSIM,我们将读者引向[3,第2.2节],对于LBox和LScore,我们将读者引向[28,第3.2节]。对于L3b,如果其中一个锚定箱的IOU至少为0.6,则认为行为正(yn=1),否则认为行为负(yn=-1)。对于L2B,我们采用与[3]相同的策略来确定阳性和阴性样本。我们没有像在[43]和λ2=λ3=1中那样搜索等式4和等式5以及简单集λ1=32的超参数。框和分数输出的任务特定分支由两个1×1卷积层组成。图2说明了Siammask的两种变体。
生成Box。请注意,虽然VOS基准测试需要二进制掩码,但典型的跟踪基准测试(如VOT [26,27])需要将边界框作为目标对象的最终表示。 我们考虑三种不同的策略从二元掩模生成边界框(图3):( 1)轴对齐边界矩形(Min-max),(2)旋转最小边界矩形(MBR)和(3)优化策略 用于VOT-2016中提出的自动边界框生成[26](选项)。 我们在第4节(表1)中对这些替代方案进行了实证评估。
实现细节
网络架构。对于这两种变体,我们使用resnet-50[18]直到第4阶段的最终卷积层作为我们的主干fθ。为了在更深层中获得高空间分辨率,我们通过使用步幅为1的卷积将输出步幅减小到8。此外,我们通过使用扩张卷积来增加接收场[6]。 在我们的模型中,我们将共享主干fθ添加到非共享调整层(具有256个输出的1×1转换)。 为了简单起见,我们在式1中省略了它。我们在附录A中更详细地描述了网络架构。
训练。与SiamFC [3]一样,我们分别使用127×127和255×255像素的示例和搜索图像块。在训练期间,我们随机抖动示例和搜索补丁。 具体而言,我们考虑随机平移(最多±8像素)和重新缩放(分别为2±1/8和2±1/4,用于示例和搜索)。
网络主干在ImageNet-1k分类任务上进行了预训练。 我们使用SGD进行第一个预热阶段,其中学习率在前5次迭代从10-3线性增加到5×10-3,然后在后面15次迭代中以对数方式减少到5×10-4。 我们使用COCO [31],ImageNet-VID [47]和YouTube-VOS [58]训练所有模型。 我们使用COCO [31],ImageNet-VID [47]和YouTube-VOS [58]训练所有模型。
推论。在跟踪期间,SiamMask每帧只进行一次评估,无需任何调整。 在我们的两个变体中,我们使用在分类分支中获得最大分数的位置来选择输出掩码。 然后,在应用了像素级sigmoid之后,我们将mask分支的输出二值化为0.5。在双分支变体中,对于第一帧之后的每个视频帧,我们使用Min-max框输出掩码,并将其用作裁剪下一帧搜索区域的参考。 相反,在三分支变体中,我们更有效地利用分支的最高得分输出作为参考。
实验
在本节中,我们评估了我们在两个相关任务上的方法:视觉对象跟踪(在VOT-2016和VOT-2018上)和半监督视频对象分割(onDAVIS2016和DAVIS-2017)。 我们分别用SiamMask-2B和SiamMask来指代我们的双分支和三分支变体。
数据集和设置。 我们采用两个广泛使用的基准来评估对象跟踪任务:VOT2016 [26]和VOT-2018 [27],两者都用旋转的边界框注释。 我们使用VOT-2016来了解不同类型的表示如何影响性能。 对于第一个实验,我们使用平均交并比(IOU)和平均精度(AP)@ {0.5,0.7} IOU。 然后,我们使用官方VOT工具包和预期平均重叠(EAO)与VOT-2018的最新技术进行比较,该方法考虑了跟踪器的准确性和稳健性[27]。
对象表示有多少重要?现有的跟踪方法通常预测具有固定[3,20,13,33]或可变[28,19,63]纵横比的轴对齐边界框。 我们感兴趣的是了解生成每帧二进制掩码可以在多大程度上改进跟踪。 为了专注于表示准确性,对于该实验,我们仅忽略时间方面和随机采样视频帧。 以下段落中描述的方法在来自VOT-2016序列的随机裁剪的搜索块(具有±16像素内的随机移位和高达21±0.25的比例变形)上进行测试。
在表1中,我们使用Min-max,MBR和Opt方法(在3.2节末尾和图3中描述)比较我们的三分支变体。作为参考,我们还报告了SiamFC和SiamRPN的结果,作为固定和可变长宽比方法的代表,以及三个能够访问每帧ground-truth信息并作为不同表示策略的上界的Oracle。(1)固定纵横比Oracle使用每帧ground-truth区域和中心位置,但将纵横比重新定义为第一帧,并生成轴对齐的边界框。(2)minmax Oracle使用旋转的ground-truth边界框的最小包围矩形来生成轴对齐的边界框。(3)最后,MBR Oracle使用ground-truth的旋转最小边界矩形。注意(1)、(2)和(3)可以分别考虑SIAMFC、SIAMRPN和SIAMMASK表示策略的性能上限。
表1显示,无论使用何种box生成策略,我们的方法都能达到最佳mIOU(图3)。 尽管SiamMask-Opt提供了最高的IOU和mAP,但由于其优化过程缓慢,需要大量的计算资源[54]。 SiamMask-MBR达到了85.4的mAP@0.5 IOU,两个完全卷积基线分别提高了+29和+9.2点。有趣的是,当以0.7 IOU:+41.6和+18.4的更高精度范围考虑地图时,差距明显扩大。值得注意的是,我们的精度结果离固定纵横比Oracle不远。此外,比较Oracle所代表的上界性能,可以注意到,如何通过简单地更改边界框表示来有很大的改进空间(例如,固定纵横比与MBR Oracle之间的改进幅度为+10.6%)。
实验真的太多了,还是看原文吧。。。
论文理解
可参考该博客帮助论文理解:https://blog.csdn.net/qq_37392244/article/details/88569554