【论文学习】《High Performance Visual Tracking with SiameseRegionProposalNetwork》18年SiamRPN高性能视觉跟踪的孪生区域候选网络

SiamRPN是商汤Siam孪生网络系列的第一个作品,2018年在VOT的比赛中获得了第一,CVPR 2018 选为了Spotlight。

论文地址:CVPR2018版

相关代码:https://github.com/STVIR/pysot

概要:

上一篇文章SiamFC提到,SiamFC存在计算量稍大(比这之前方法的速度是大大提升的)和边界框不准确的可观问题,因此,SiamRPN受Fast RCNN中优秀的RPN(区域候选网络)启发,在SiamFC的基础进行了改进,样例图和搜索图的图像特征提取卷积做完后后,进去两个分支:一个分支是全卷积得到17*17目标位置的得分图,每个位置相当于一个候选框。另一个分支全卷积得到17*17目标位置的边界框,相当于回归每个候选框所对应的边界框坐标。减少了多尺度的计算,因此客观地在速度和精度上后得到了提升,2018各种目标检测比赛中获得了第一,速度上更是遥遥领先。

【一、翻译部分】

作者信息

摘要:视觉目标跟踪是近年来的一个基本课题,许多基于深度学习的跟踪器在多个基准上取得了最先进的性能。然而,大多数这些跟踪器很难以实时速度获得最佳性能。在本文中,我们提出了孪生区域候选网络 (Siamese-RPN),它是使用大规模图像对进行端到端离线训练的。具体来说,它由用于特征提取的孪生子网络和包括分类分支和回归分支的区域候选子网络组成。在推理阶段,所提出的框架被制定为局部单样本(one-shot,与zero-shot翻译为零样本对应)检测任务。我们可以预先计算孪生子网络的模板分支,并将相关层制定为简单的卷积层以执行在线跟踪。受益于候选细化,可以丢弃传统的多尺度测试和在线微调。Siamese-RPN以160FPS运行,同时在VOT2015、VOT2016和VOT2017实时挑战中取得领先性能。

1 引言

视觉目标跟踪是计算机视觉各种任务的基本组成部分,如自动驾驶[19]和视频监控[32]。由光照、变形、遮挡和运动引起的较大外观变化具有挑战性[37,39]。此外,速度在实际应用中也很重要[13,4,38]。

现代跟踪器大致可分为两个分支。第一个分支基于相关滤波器,它通过利用循环相关的特性并在傅里叶域中执行操作来训练回归器。它可以有效地进行在线跟踪和同时更新过滤器的权重。原始版本在傅里叶域中进行,然后在跟踪社区中广泛使用[5,14]。最近基于相关滤波器的方法使用深度特征来提高准确性,但这在很大程度上损害了模型更新的速度[10,7]。另一个方法分支旨在使用非常强大的深度特征,并且不更新模型[13,4,35]。然而,由于没有使用特定领域的信息,这些方法的性能总是不如基于相关滤波器的方法。

在本文中,我们表明,如果设计得当,基于离线训练的深度学习跟踪器可以与最先进的基于相关滤波器的方法相比取得有竞争力的结果。其中的关键就是本文所提出的孪生区域候选网络(Siamese-RPN)。它由一个模板分支和一个检测分支组成,它们以端到端的方式使用大规模图像对进行离线训练。受最先进的候选提取方法RPN[27]的启发,我们对相关特征图进行了候选提取。和标准RPN不同,我们使用两个分支的相关特征图进行候选提取。在跟踪任务中,我们没有预定义的类别,因此我们需要模板分支将目标的外观信息编码到RPN特征图中,以区分前景和背景。

对于推理,我们将其表述为局部单次检测框架,其中第一帧中的边界框是唯一的示例。我们将模板分支重新解释为参数,以将检测内核预测为元学习器,如[2]。元学习器和检测分支都只使用RPN的监督进行端到端的训练。在在线跟踪过程中,模板分支被修剪以加速初始帧后的速度。据我们所知,这是将在线跟踪任务制定为单样本检测的第一项工作。

我们在VOT2015、VOT2016和VOT2017实时挑战中评估了所提出的方法[17,16,15]。它可以在所有三个挑战中取得领先成绩。我们可以在不进行在线微调的情况下获得最先进的结果,主要有两个原因。首先,我们的方法可以使用图像对进行离线训练,这可以利用大规模的训练数据,如Youtube BB[25]。消融研究表明,更多的数据可以帮助获得更好的性能。其次,我们发现区域候选子网络通常会预测出准确的尺寸和比例,如图1所示的紧凑边界框。

图1:我们的方法与两个最先进的跟踪器的比较。当目标形状发生严重变化时,SiamRPN(Siamese-RPN的缩写)能够比SiamFC(Siamese-FC的缩写)[4]、CCOT[10]更精确地预测形状。

这些贡献可以概括为三方面。1、我们提出了孪生区域候选网络(Siamese-RPN),该网络使用大规模图像对进行端到端的离线训练,用于跟踪任务。2、在在线跟踪过程中,所提出的框架被制定为局部单点检测任务,可以进行候选细化以丢弃昂贵的多尺度测试。3、它以160FPS的速度在VOT2015、VOT2016和VOT2017实时挑战中取得了领先的性能,这证明了它在准确性和效率方面的优势。 

2 相关工作

由于本文的主要贡献是将SiameseRPN表述为局部单次检测任务,因此我们简要回顾了与我们的工作相关的三个方面:基于孪生网络结构的跟踪器、检测中的RPN和单样本学习。

2.1 基于孪生网络结构的跟踪器

孪生网络由两个分支组成,这两个分支将原始图像块(patches)隐式编码到另一个空间,然后将它们与特定的张量融合以产生单个输出。它通常用于比较隐式嵌入空间中两个分支的特征,特别是用于对比任务。最近,孪生网络因其平衡的准确性和速度而引起了视觉跟踪界的极大关注[13,12,4,35,36]。GOTURN[13]采用孪生网络作为特征提取器,并使用全连接层作为融合张量。它可以被视为一种回归方法,将最后一帧中的预测边界框作为唯一的一个候选框。Re3[12]采用循环网络来获得模板分支产生的更好特征。受基于相关性的方法的启发,Siamese-FC[4]首先引入了相关性层作为融合张量,大大提高了精度。其成功的原因是与GOTURN的单候选框回归相比,其密集监督热图使Siamese-FC对快速移动的物体更具鲁棒性。CFNet[35]在模板分支中添加了一个相关滤波器,使孪生网络更浅但更高效。然而,Siamese-FC和CFNet都缺乏边界框回归,需要进行多尺度测试,这使得它不那么优雅。与最先进的相关滤波器方法相比,这些实时跟踪器的主要缺点是其精度和鲁棒性不令人满意。

2.2 检测中的RPN

区域候选网络(RPN)首次在Faster R-CNN中提出[27]。在RPN之前,传统的候选框提取方法很耗时。例如,选择性搜索[34]需要2秒来处理一张图像。此外,这些候选框的质量还不足以用于检测。多个锚点的枚举[27]和共享卷积特征使候选框提取方法在实现高质量的同时具有时间效率。由于对前景背景分类和边界框回归的监督,RPN能够提取更精确的候选框。Faster R-CNN有几种RPN的变体。R-FCN[6]考虑了组件的位置信息,FPN[21]采用特征金字塔网络来提高微小物体检测的性能。与两阶段检测相比,RPN的改进版本,如SSD[22]和YOLO9000[26]是高效的检测器。RPN因其速度快、性能好而在检测中有许多成功的应用,但在跟踪中尚未得到充分利用。

2.3 单样本学习

近年来,深度学习中的单样本学习主题越来越受到人们的关注。基于贝叶斯统计的方法和元学习方法是解决该问题的两种主要方法。在[20]中,对象类别由概率模型表示,在推理阶段采用贝叶斯估计。另一方面,元学习方法旨在获得学习的能力,也就是说,意识到并控制自己的学习。具体来说,[1]利用神经网络来预测反向传播过程中目标网络的梯度。[30]学习一个网络,该网络将一个小的标记支持集和一个未标记的样例映射到它的标签上。尽管这些基于元学习的方法取得了有竞争力的结果,但这些方法通常在分类任务上进行评估,很少有方法扩展到跟踪任务。Learnet[2]是第一个利用元学习方法来解决跟踪任务的工作,该方法从单个样本中预测瞳孔网络的参数。然而,Learnet的性能不如现代基于DCF的方法,例如CCOT在多个基准测试中的表现。

3 Siamese-RPN架构

图2 Siamese-RPN的主要框架:左侧是用于特征提取的孪生子网络。区域候选子网络位于中间,它有两个分支,一个用于分类,另一个用于回归。采用成对相关来获得两个分支的输出。这两个输出特征图的详细信息在右侧。在分类分支中,输出特征图有2k个通道,对应于k个锚点的前景和背景。在回归分支中,输出特征图有4k个通道,对应于用于k个锚点的候选框细化的四个坐标。在图中,★表示相关运算符。

在本节中,我们将详细描述所提出的Siamese-RPN框架。如图2所示,所提出的框架由用于特征提取的孪生子网络用于候选框生成的区域候选子网络组成。具体来说,RPN子网中有两个分支,一个负责前景背景分类,另一个用于候选框细化。将包含目标对象的图像块输入到所提出的框架中,并对整个系统进行端到端的训练。

3.1 孪生特征提取子网络

在孪生网络中,我们采用了一种没有填充(padding,SiamFC也没有)的全卷积网络。令L_{\tau}标识转换操作,\left ( L_{\tau} x \right )\left [ u \right ]=x\left [ u-\tau \right ],然后去除所有填充,以满足与步幅k完全卷积的定义:

这里我们使用修改后的AlexNet[18],其中删除了conv2和conv4中的组[4]。 

孪生特征提取子网络由两个分支组成。一个称为模板分支,它接收历史帧中的目标图像块作为输入(表示为z)。另一个称为检测分支,它接收当前帧中的目标图像块作为输入(表示为x)。这两个分支在CNN中共享参数,因此这两个图像块由适用于后续任务的相同变换隐式编码。为方便起见,我们将φ(z)φ(x)表示为孪生子网的输出特征图。

3.2 区域候选子网络

区域候选子网络由成对的相关部分监督部分组成。监督部分有两个分支,一个用于前景背景分类,另一个用于候选回归。如果有k个锚点,网络需要输出2k个通道进行分类(正、负),输出4k个通道进行回归(x1,y1,x2,y2)。因此,成对相关部分首先通过两个卷积层将φ(z)的通道增加到分别为2k4k倍通道的两个分支\left [ \varphi \left ( z \right ) \right ]_{cls}\left [ \varphi \left ( z \right ) \right ]_{reg}φ(x)也被两个卷积层分成两个分支\left [ \varphi \left ( x \right ) \right ]_{cls}\left [ \varphi \left ( x \right ) \right ]_{reg},但保持通道不变。[φ(z)]以“组”的方式作为[φ(x)]的相关核,也就是说,[φ(z)]组中的通道数与[φ(x)]的总通道数相同。在分类分支和回归分支上计算相关性:

模板特征映射\left [ \varphi \left ( z \right ) \right ]_{cls}\left [ \varphi \left ( z \right ) \right ]_{reg}用作核,★表示卷积操作(图2中说★是相关操作,20*20被4*4卷正好是17*17)。如图2所示,A_{w\times h\times 2k}^{cls}中的每个点\left ( \tilde{w},\tilde{h},: \right )都包含一个2k通道向量,表示原始图像上相应位置的每个锚点的负激活和正激活。采用Softmax损失对分级支路进行监控。同样,A_{w\times h\times 4k}^{reg}中的每个点表示为\left ( \tilde{w},\tilde{h},: \right ),包含一个4k信道向量,表示dxdydwdh,用于测量锚点和相应真值之间的距离。

当使用多个锚点训练网络时,我们使用Faster R-CNN中的损失函数[27]。分类损失是交叉熵损失,我们采用具有归一化坐标的平滑L1损失进行回归。设AxAyAwAh表示锚框的中心点和形状,设TxTyTwTh表示真值框的中心和形状,归一化距离为:

然后,它们通过平滑的L1损失, 

 最后,我们优化了损失函数:

 其中λ是平衡这两部分的超参数。Lcls是交叉熵损失,Lreg是:

 3.3. 训练阶段:端到端训练Siamese-RPN

在训练阶段,样本对以随机间隔从ILSVRC[29]和Youtube BB[25]中连续选取。模板和检测图像块是从同一视频的两帧中提取的。在使用ImageNet对孪生子网络进行预训练后,我们使用随机梯度下降(SGD)对Siamese-RPN进行端到端训练。由于需要训练回归分支,采用了一些数据增强,包括仿射变换。 

我们通过注意到两个相邻帧中的同一对象不会发生太大变化,在跟踪任务中选择的锚点比检测任务少。因此,只采用了一种不同锚比的尺度,我们采用的锚比为[0.3,0.5,1,2,3]。

在我们提出的框架中,选择正负训练样本的策略也很重要。这里采用了目标检测任务中使用的标准,即我们使用IoU和两个阈值THhiTHlo作为度量。正样本被定义为具有IoU>THhi及其相应真值的锚点。负锚定义为满足IoU<THlo的锚。我们将THlo设置为0.3,THhi设置为0.6。我们还做了些限制:一个“训练对”最多可以有16个正样本和总样本64个。

4 单样本检测实现跟踪

在本小节中,我们首先将跟踪任务表述为局部单样本检测任务。然后,对这种解释下的推理阶段进行了详细分析和简化,以加快速度。最后,介绍了一些具体的策略,使框架适合跟踪任务。

4.1 公式化

我们将单样本检测视为[2]中的判别性任务。其目标是找到最小化预测函数ψ(x;W)平均损失L的参数 W。该参数在包含n个样本xi和相应标签li的数据集上计算:

单样本学习旨在从感兴趣类别的单个模板z中学习参数W。判别式单样本学习的挑战在于找到一种将类别信息纳入学习器的机制,即学会学习。为了应对这一挑战,我们提出了一种方法,使用元学习过程从单个模板z中学习预测器的参数W,即将(z;W′)映射到W的前馈函数ω。让zi在一个块中成为模板样本,则问题可以表述为:

与上文相同,令z表示模板块,x表示检测块,函数φ表示孪生特征提取子网络,函数ζ表示区域候选子网络,则单样本检测任务可以表述为: 

(ps: 公式8直接跳到公式9没有解释有是有点牵强的)

现在,我们可以将孪生子网络中的模板分支重新解释为训练参数,以预测局部检测任务的内核,这通常是学习的过程。在这种解释中,模板分支用于将类别信息嵌入内核,检测分支使用嵌入的信息执行检测。在训练阶段,除了成对边界框监督之外,元学习器不需要任何其他监督。在推理阶段,孪生框架被修剪,只留下除初始帧之外的检测分支,从而提高速度。第一帧中的目标块被发送到模板分支,并预先计算检测内核,以便我们可以在其他帧中执行单样本检测。由于局部检测任务仅基于初始帧上的模板提供的类别信息,因此可以将其视为单样本检测。

4.2 推理阶段:执行单样本检测

图3:单样本检测实现跟踪:模板分支使用第一帧预测检测分支上区域候选子网络的内核权重(灰色)。然后修剪模板分支,只保留检测分支。因此,该框架被修改为局部检测网络。

按照第4.1节中的公式,我们将模板分支的输出视为局部检测的内核。两个内核(回归和分类)都在初始帧上预先计算,并在整个跟踪期间固定。利用预先计算的内核卷积当前特征图,检测分支执行在线推理作为一次性检测,如图3所示。在检测分支上执行前向传递以获得分类和回归输出,从而得到前M个候选框。具体来说,在等式2中定义的符号之后,我们将分类和回归特征图表示为点集:

 其中 i∈[0,w), j∈[0,h), l∈[0,2k)

 其中 i∈[0,w), j∈[0,h), p∈[0,k)

由于分类特征图上的奇数通道代表正激活,我们收集所有A_{w\times h\times 2k}^{cls}l为奇数的前K个点,并将该点集表示为CLS^{*}=\left \{ \left ( x_{i}^{cls}, y_{i}^{cls}, c_{l}^{cls} \right )_{i\in I, j\in J, l\in L} \right \},其中I、J、L是一些索引集。变量ij分别编码相应锚点的位置,l编码相应锚点的比例,因此我们可以得出相应的锚点集作为ANC^{*}=\left \{ \left ( x_{i}^{an}, y_{i}^{an}, w_{l}^{an}, h_{l}^{an} \right )_{i\in I, j\in J, l\in L} \right \}。此外,我们在A_{w\times h\times 4k}^{cls}(公式写错了吧?reg是4k,cls是2k)上找到ANC^{*}的激活以获得相应的细化坐标作为REG^{*}=\left \{ \left ( x_{i}^{reg}, y_{j}^{reg}, dx_{l}^{reg}, dy_{l}^{reg}, dw_{l}^{reg}, dh_{l}^{reg} \right )_{i\in I,j\in J, l\in L} \right \}。之后,可以通过下列等式12获得细化的前K个候选框集PRO^{*}=\left \{ \left ( x_{i}^{pro},y_{j}^{pro}, w_{l}^{pro}, h_{l}^{pro} \right ) \right \}

生成前K个候选框之后,我们使用一些候选框选择策略使它们适合跟踪任务,我们将在下一节中讨论它。 

4.3 候选框选择

为了使单样本检测框架适合跟踪任务,我们提出了两种选择候选框的策略。

图4:RPN特征图中中心大小为7的说明,每个网格代表相应位置的k个锚点的编码特征。例如,分类特征图中有2k个通道代表前景和背景激活。锚点的中心大小表示模型的搜索区域。

第一个候选框选择策略是丢弃距离中心太远的锚点生成的边界框。例如,我们只保留A_{w\times h\times 2k}^{cls}分类特征图上的中心g×g子区域,以获得g×g×k个锚点,而不是m×n×k个锚点。由于附近的帧始终没有大的运动,因此丢弃策略可以有效地去除异常值。图4是在分类特征图中选择距离中心不超过 7 的目标锚点的说明。

第二个候选框选择策略是使用余弦窗口和尺度变化惩罚对候选框的得分进行重新排序,以获得最佳候选框。丢弃异常值后,添加余弦窗口以抑制较大的位移,然后添加惩罚以抑制尺寸和比例的较大变化:

这里k是一个超参数。r表示候选框的高宽比,r′ 表示最后一帧的高宽比。ss′表示候选框和最后一帧的整体比例,计算如下: 

其中wh表示目标的宽度和高度,p表示填充(padding),等于(w+h)/2。完成这些操作后,将分类分数乘以时间惩罚,对前K个提案进行重新排序。之后执行非最大抑制 (NMS) 以获得最终的跟踪边界框。选定最终边界框后,通过线性插值更新目标大小,以保持形状平滑变化。 

5 实验

实验在四个具有挑战性的跟踪数据集上进行:VOT2015、VOT2016、VOT2017实时,每个数据集有60个视频,OTB2015有100个视频。所有跟踪结果均使用报告的结果以确保公平比较。

5.1 实施细节

我们使用从ImageNet[28]预训练的改进版AlexNet,其中前三个卷积层的参数固定,只对Siamese-RPN中的最后两个卷积层进行微调。这些参数是通过使用SGD优化等式5中的损失函数获得的。总共进行了50个迭代周期,学习率在对数空间中从10^-2降低到10^-6。我们从VID和Youtube-BB中提取图像对,选择间隔小于100的帧并执行进一步的裁剪程序。如果目标边界框的大小表示为 (w, h),我们以历史帧为中心裁剪模板图像块块,大小为A×A,定义如下。

其中p=(w+h)/2。之后将其调整为127×127。以同样的方式,在当前帧上裁剪检测图像块,使其大小为模板图像块的两倍,然后将其调整为255×255

在推理阶段,由于我们将在线跟踪制定为单样本检测任务,因此没有在线自适应。我们的实验是在具有Intel i7、12G RAM、Nvidia GTX 1060的PC上使用PyTorch实现的。

5.2 VOT2015上的结果

图5:我们的追踪器、Siamese-FC 和VOT2015挑战赛中前10名追踪器的预期重叠。

VOT2015数据集包含60个序列。性能评估包括准确度(成功跟踪时的平均重叠度)和稳健性(失败次数)。使用预期平均重叠度 (EAO) 评估整体性能,该值兼顾准确度和稳健性。此外,使用归一化速度 (EFO) 评估速度。

表1:VOT2015中最先进的追踪器的详细信息。红色、蓝色和绿色分别代表第一、第二和第三。

我们根据最新的VOT规则将我们的跟踪器与前10个跟踪器进行了比较(从板中删除MDNet[24],因为它是使用OTB序列生成的数据进行训练的)。Siamese-FC被添加作为我们的基线进行比较。图 5显示Siamese-RPN能够胜过VOT2015中的跟踪器,表1列出了有关跟踪器的详细信息。如表1所示,Siamese-RPN在EAO、准确性、失败和EFO方面排名第一。在VOT2015报告中的所有跟踪器中,只有少数跟踪器可以以实时速度跟踪,但它们的预期重叠相对较低。Siamese-FC 是 VOT2015上的顶级跟踪器之一,它可以以超实时的帧速率运行并实现最先进的性能。 Siamese-RPN能够以160FPS的速度运行,几乎是 Siamese-FC(86 FPS)的两倍,同时EAO相对提高了 23%。

5.3 VOT2016上的结果

图6:VOT2016挑战赛中的预期重叠分数,分数越大越好。

VOT2016挑战赛中的序列与VOT2015相同,但边界框被重新注释。性能评估与VOT2015相同。

表2:有关VOT2016中几种已发布的最先进追踪器性能的详细信息。

我们将我们的跟踪器与VOT2016中的前25名跟踪器进行了比较。Siamese-RPN的表现可以超越挑战中的所有参赛作品。图6说明了EAO排名,表2显示了有关几种最先进的跟踪器的详细信息。如图6所示,我们的跟踪器在以160FPS运行时可以根据EAO排名第一,比CCOT快500倍。如表2所示,Siamese-RPN在EAO、准确度和EFO方面排名第一,在失败率方面排名第三。图7显示了最先进跟踪器的性能和速度。它表明我们的跟踪器在高速运行时可以实现卓越的性能。 

图7:我们的跟踪器和VOT2016中一些最先进的跟踪器的性能和速度。越靠近顶部意味着精度越高,越靠近右侧意味着速度越快。Siamese-RPN能够在160 FPS下运行时在EAO中排名第一。

5.4 VOT2017实时实验结果

在VOT2017[15]中,最不具挑战性的10个序列被10个困难序列取代。此外,还进行了一项新的实时实验,其中跟踪器需要以至少25FPS的速度处理实时视频流。这意味着如果跟踪器无法在40毫秒内处理结果,则评估器将使用最后一帧的边界框作为当前帧的结果。对于几乎所有最先进的跟踪器来说,这都是一个挑战。在无速度限制标准下按原始 EAO 排名的前10名跟踪器在实时实验中获得的EAO较低。

图8: VOT2017挑战赛中实时实验的预期重叠分数排名。

图8展示了Siamese-RPN和VOT2017报告中列出的几种实时跟踪器。相比之下,Siamese-RPN可以根据EAO排名第一。具体来说,它可以超越排名第二的CSRDCF++ 14%,超越排名第三的 Siamese-FC 33%。

5.5 OTB2015上的结果

OTB2015[37]包含100个从常用跟踪序列中收集的序列。评估基于两个指标:精度和成功图。精度图显示跟踪结果在距离目标20像素以内的帧的百分比。成功图显示阈值从0到1变化时成功帧的比例,其中成功帧意味着其重叠大于给定阈值。成功图的曲线下面积 (AUC) 用于对跟踪算法进行排序。

图9:OTB2015的成功图和精度图

在本实验中,我们将我们的方法与几种代表性的跟踪器进行了比较,包括PTAV [11]、CREST[31]、SRDCF[8]、SINT[33]、CSR-DCF[23]、Siamese-FC[4]、Staple[3]、CFNet[35] 和 DSST[9]。如图9所示,提出的Siamese-RPN在成功率和精度图中均能排名第一。 

5.6 讨论

在本小节中,我们讨论对我们的性能至关重要的几个因素,包括数据大小、锚定比率和位置。

5.6.1 数据大小

由于我们的跟踪框架只需要图像对而不是连续的视频流,因此我们能够从大规模稀疏标记的视频中受益。与由大约 4,000 个逐帧注释的视频组成的ILSVRC[29]相比,Youtube-BB[25]包含每30帧注释一次的100,000多个视频。我们通过逐渐从 Youtube-BB 添加更多数据来训练具有不同数据集大小的Siamese-RPN。

图10:使用来自ILSVRC [29]和Youtube-BB[25] 的更多视频对跟踪器性能的影响。添加来自Youtube-BB的数据可以逐渐提高性能。性能并未饱和,这意味着随着训练数据的增加,跟踪器性能可能会变得更好。
5.6.2 锚点选择

锚点比例第3.3节所述,我们仅考虑不同比例的锚点,同时固定锚点的比例,因为目标的比例在两个相邻帧中不会发生太大变化。尝试了三个比例,[0.5, 1, 2], [0.33, 0.5, 1, 2, 3], [0.25, 0.33, 0.5, 1, 2, 3, 4](分别表示为 A3、A5、A7)

表3:VOT2016上的锚点比例和EAO。有/无Youtube分别表示模型是在使用或不使用Youtube-BB进行训练的。

表3所示,使用A5的跟踪器比使用A3的跟踪器表现更好,因为通过更多的锚点,更容易预测高宽比较大的物体的形状。然而,使用A7的跟踪器未能持续提升性能,我们认为这可能是由于过度拟合造成的。当添加更多来自Youtube-BB的训练数据时,A7和A5之间的EAO差距从0.013缩小到 0.007。

图11:中心尺寸在不同数据集上的效果。虚线和实线分别表示不使用Youtube-BB和使用Youtube-BB 训练的模型的变化。圆点和十字分别表示VOT2015和VOT2016上的变化。在添加Youtube-BB数据集时,我们设置的中心尺寸越大,得到的EAO越好。当仅使用VID数据集时,锚点的中心尺寸最好为 4,说明区域候选子网络的判别能力不足以使用较大的搜索区域。

锚点位置 在我们的实验中,中心尺寸(如4.3中定义)与搜索区域的大小有关。我们可以看到,在图4中,更大的中心尺寸意味着跟踪器可以选择距离中心更远的锚点来扩大搜索区域。如图11所示,当使用Youtube-BB训练网络时,随着中心尺寸的增加,性能会变得更高。但是,如果仅使用 ILSVRC进行训练,性能并没有像预期的那样提高,这意味着RPN的判别能力不足以使用较大的搜索区域。

6 结论

在本研究中,我们提出了孪生区域候选网络 (Siamese-RPN),该网络使用来自ILSVRC和 YoutubeBB的大规模图像对进行端到端离线训练。Siamese-RPN可以通过应用框细化程序获得更准确的边界框。在在线跟踪过程中,所提出的框架被制定为局部单样本检测任务。在实验中,我们的方法可以在160 FPS的运行速度下在VOT2015、VOT2016和 VOT2017实时挑战中实现领先的性能。

【二、学习部分】

1 论文理解

本文主要介绍了一种由孪生子网络+区域候选子网络组合而来的孪生区域候选网络Siamese-RPN(简写为SiamRPN),使用大规模图像端到端离线训练而来,可以用于解决目标跟踪问题。与SiamFC类似,探讨了离线跟踪单样本检测器的构造和提升。在SiamFC的基础上,SiamRPN引入了区域候选子网络,使得检测结果能得到细化的边界框(SiamFC只能知道目标中心点),并且由更快的计算速度(SiamFC使用多尺度检测目标,而SiamRPN不用,仅仅多尺度锚点就行了)

优点:

1)一次计算。离线端到端学习。

2)输出分类和边界框两个分析,精度都得到了提升。

不足:

1)和SiamFC类似,没有在线跟踪部分,物体如果发生变化或者干扰多,则可能跟踪失败。本文作者没有分析网络的不足和未来的工作计划。SiamFC作者则提到了不足之处和后续工作。

2 经典十问

2.1 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

本文提到:

1)基于相关滤波器的跟踪,D. S. Bolme的《Visual object tracking using adaptive correlation filters》和最近M. Danelljan的基于深度学习的改进提升了精度损失效率《ECO: Efficient Convolution Operators for Tracking》。

2)基于孪生网络的离线跟踪,特点是网络由两个分支组成,在离线过程中学习通用的对象相关性。如D. Held的GOTURN《Learning to track at 100 fps with deep regression networks》,深度卷积特征提取能力强,但是没有特定领域信息,对目标跟踪的效果不如基于相关滤波的。以及L. Bertinetto的全卷积孪生网络《Fully-convolutional siamese networks for object tracking》目标中心位置检测能力强但缺乏边界框回归。

下面是SiamFC提到的相关研究,可以看到,SiamRPN之前,SINT就基于孪生网络做候选框目标跟踪,然而候选框的生成方法不好,计算量大。SiamRPN借鉴了Fast RCNN中最先进的区域候选方法。

1)循环神经网络 (RNN) 来解决物体跟踪问题,效果暂时不佳,但未来可期。

2)粒子滤波器跟踪物体,需要多个关注区,计算大。该方法在人脸和人物跟踪上得到了定性证明。

3)卷积网络形状像Y的YCNN,他们无法在训练后动态调整搜索区域的大小。

4)也有使用孪生网络做的,SINT(孪生实例搜索跟踪器),但是需要推选候选区,计算大。

值得关注的研究员:

传统的Zdenek Kalal(TLD)、Sam Hare(Struck)、João F. Henriques(KCF)等人;RNN的Gan和Kahou等人;粒子滤波器的Denil等人;YCNN的Held和Chen等人;孪生网络的Tao等人。

2.2 论文试图解决什么问题?

解决跟踪任务中

1)目标边界框回归的问题(使用区域候选子网络来解决,同时不需要多尺度检测,大大减少了计算)

2.3 这是否是一个新的问题?

这不是一个新的问题,目标跟踪存在精度和速度差的问题已经存在多时。但如何在基于孪生网络的跟踪任务中的获得精确的目标边界框是新的问题,先进的区域候选网络RPN出现Fast RCNN中,本次应用中,作者借鉴了Fast RCNN的RPN思想以创新的结构应用在全卷积孪生网络中。

2.4 这篇文章要验证一个什么学科假设?

这篇文章主要验证可以通过区域候选网络在基于孪生网络的跟踪任务中获得精确的目标边界框。

1)利用分类和回归分支,直接获得跟踪目标的类别、边界框,实现速度与精度双提升。

2.5 论文中提到的解决方案之关键是什么?

关键:
1)区域候选网络与孪生网络的结合方式(3.2)。

2)端到端的训练方式(3.3)。

3)推理过程候选框的选择(4.3)。

2.6 论文中的实验是如何设计的?

1)与其他先进方法的比较

在VOT2015、VOT2016、VOT2017实时、OTB2015这四个数据集上与公开排名前十的方法进行比较。所有跟踪结果均使用报告的结果以确保公平比较,十分客观。

性能评估包括:准确度(accuracy成功跟踪时的平均重叠度)和稳健性(failure失败次数)。使用预期平均重叠度 (EAO) 评估整体性能,该值兼顾准确度和稳健性。此外,使用归一化速度 (EFO) 评估速度。最后还比较了速度,帧率FPS。

2)不同数据集大小对模型的影响

使用量级不同的ILSVRC和Youtube-BB数据集对网络进行训练和测试。

3)不同锚点比例和中心尺寸(搜索大小)对网络的影响

三种不同比例:[0.5, 1, 2], [0.33, 0.5, 1, 2, 3], [0.25, 0.33, 0.5, 1, 2, 3, 4]

中心尺寸:3~8

2.7 用于定量评估的数据集是什么?代码有没有开源?

在VOT2015、VOT2016、VOT2017实时、OTB2015这四个数据集上与最新的前10名方法进行比较。并且使用公开的报告进行结果对比,十分客观。

代码和数据集都开源。

2.8 论文中的实验及结果有没有很好地支持需要验证的科学假设?

实验及结果很好地支持需要验证的科学假设。

1)区域候选网络可以与孪生网络结合,并进行端到端训练,达到了跟踪任务中精确获得分类和边界框定位的能力。

2.9 这篇论文到底有什么贡献?

对孪生网络在跟踪任务中的应用具有巨大的推进作用,大大提高了基于孪生网络的离线跟踪方法的精度和速度。

2.10 下一步呢?有什么工作可以继续深入?

本次工作与SiamFC类似,只探索了如何设计一个优秀的跟踪器(孪生网络+区域候选网络)实现离线跟踪,没有探索在线跟踪。

下一步工作作者未提及。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值