深度解读（3）Recurrently Target-Attending Tracking

最新推荐文章于 2020-10-03 20:06:48 发布

sunyuxiu

最新推荐文章于 2020-10-03 20:06:48 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习（论文解析）

深度学习（论文解析）专栏收录该内容

3 篇文章 0 订阅

订阅专栏

（译）本文提出一种循环网络进行目标跟踪的方法，称为RTT，RTT的主要目的是为了解决目标遮挡的问题
循环神经网络的作用是得到置信度图，即每个点处是目标的概率。下面是我对这种方法理解的处理过程。
在对每一帧进行跟踪时，给定目标在上一帧中的矩形框中，以目标的中心为中心，以目标的2.5倍为宽高，即将目标矩形放大2.5倍（）。然后将这个候选区域划分成网格。然后对每个矩形框提取特征，可以使用HOG特征，也可以使用更复杂的卷积神经网络提取特征。在这里划分网格而不是对整个候选区域计算特征的原因是这样做能够更好地处理处理遮挡，以及目标外观的变化。最后得到候选区域的特征。
然后，以这个特征作为输入，用多维RNN对特征进行处理，得到置信图。最后根据置信图完成对目标位置的预测。
下面是对原文的翻译：
摘要
强大的视觉跟踪是计算机视觉中的一项挑战性任务。由于估计误差的累积和传播，经常发生模型漂移并且降低跟踪性能。为了缓解这个问题，在本文中，我们提出了一种新的跟踪方法，称为Recurrently Target-attennding Tracking（RTT）。RTT试图识别和利用那些有利于整个跟踪过程的可靠部件。为了绕过遮挡并发现可靠的组件，在RTT中采用多方向回归神经网络（RNN）以通过从多个方向遍历候选空间区域来捕获远程上下文线索。所产生的来自RNN的置信图用于通过抑制杂波背景噪声来自适应地规范判别相关滤波器的学习，同时充分利用来自可靠部分的信息。为了解决加权相关滤波器，我们特别推导出一种有效的闭合解决方案，其计算复杂度急剧下降。大量实验表明，我们提出的RTT比基于相关滤波器的方法更具竞争力。
1.介绍
视觉对象跟踪是计算机视觉领域的一个基础研究课题，具有广泛的应用，包括视频监控，交通监控和增强现实[45]等。尽管过去几十年取得了巨大进步，但仍然非常由于存在不可预测的外观变化（例如部分遮挡，光照变化，几何变形，背景杂波，快速运动等）而具有挑战性。

典型的视觉跟踪流水线以第一视频帧中的对象的初始位置（例如，矩形边界框）开始，然后预测后续帧中的指定目标的位置。在现有的跟踪工作中，最近基于部分的方法[1]，[35]，[7]，[31]由于其对局部外观变化，特别是部分遮挡的鲁棒性而得到了积极的研究。通过将跟踪目标的候选区域划分为若干部分，基于部分的方法试图从那些识别的可靠部分中提取一些有用的线索。例如，Kwon 等人 [26]使用局部补丁的拓扑结构来找到那些可靠的部分。张等人 [46]在跨帧的部分之间建立对应关系之前采用局部约束的低秩和稀疏。最近，刘等人[31]建议学习每个部分的一个响应函数，并集成所有部分的响应图，以产生最终的跟踪置信度。然而，这些方法可能在捕获部件之间的大范围空间依赖性方面遇到一些困难，特别是对于具有大的同质区域的那些对象。

除了上述方法之外，还开发了许多整体跟踪方法。特别是，基于相关滤波器（CF）的方法[4]，[11]，[13]，[28]，[33]，[23]由于其出色的效率和稳健性，引起了越来越多的关注。基于CF的方法通常学习一组相关滤波器，其产生场景中目标的相关峰值，同时对背景区域产生低响应。通过使用圆形滑动窗口扫描候选区域来训练相关滤波器。当他们采用整体卷积表示时，整个候选区域在训练期间被相同地处理而没有任何识别。这可能产生不准确的滤波器，这导致学习的跟踪器偏离其正确的轨迹，尤其是当候选区域具有杂乱的背景时。

为了解决上述问题，我们提出了一种新的跟踪方法，称为Recurrently Target-attennding Tracking（RTT），它试图在整个模型学习过程中识别和利用这些可靠的部分。为了发现可靠的组件，RTT采用多向回归神经网络（RNN）对四个不同角度的所有部件进行空间编码。多方向RNN具有以下优点，可以稳健地跟踪对象。（i）空间递归模型可以学习部件之间的远程上下文依赖性，并进一步产生与部件相关联的更准确的检测置信度图。（ii）从多个方向编码可以显着减轻在一个分开的方向上发生的遮挡的负面影响。（iii）由于空间网络在本地部分经常进行，所以生成的目标表示在某种程度上是平移不变的。（iv）与具有复杂结构的图形模型相比，多方向RNN非常简单且易于实现。受益于这些前述特征，多方向RNN能够为目标和背景区域提供合理的置信度预测。

从多方向RNN产生的置信图进一步用于加权相关滤波器，以便抑制杂乱背景的负面影响并增强对可靠部分的学习。为此，我们通过使用置信度图作为加权因子将相关滤波器学习重新形成为正则化版本。为了解决加权相关滤波器，我们提出将这些级联多通道特征所跨越的高维空间分解为单通道特征上的低维空间，并最终得到滤波器学习问题的有效解析解。该解决方案大大降低了其直接原始解决方案的计算复杂度d3，哪里 d是功能频道的数量。对公共跟踪基准数据集的大量实验表明，我们提出的RTT优于那些现有的基于相关滤波器的方法。

总之，我们的主要贡献有三个方面：（i）我们提出了一种基于部分的置信度图学习方法，以发现可靠的目标部分和杂乱的背景区域; （ii）我们开发了一种自适应加权相关滤波器方法，通过在模型更新过程中使用更可靠的信息来提高跟踪性能; （iii）我们推导出一种有效的闭合形式解决方案，用于加权相关滤波器的学习，计算复杂度急剧下降。

第2节相关工作
我们的工作涉及对象跟踪方法，特别是那些基于部分的方法和基于相关滤波器的方法，以及当前流行的递归神经网络技术。
2.1 跟踪对象
在过去的十年中，视频对象跟踪已经在计算机视觉中得到了广泛的研究[2]，[2] [1]，[23]，[1]，[35]，[7]，[31]。一般来说，它们分为两类：生成模型和判别模型。生成方法[3]，[30]，[47]，[35]搜索跟踪目标最相似的区域。目标通常由一系列模板表示或跨越为子空间。判别方法[2]，[21]，[23] 将对象跟踪视为分类器问题，学习将目标与背景区分开来。

主要相关工作是基于部分和基于相关滤波器的方法。通常，基于部件的跟踪器[1]，[35]，[7]，[31]将整个目标分成几个部分。亚当等人。 [1]通过片段网格表示对象，然后从这些片段中投票选出目标位置。贾等人。[25]使用升1稀疏性搜索下一帧中最接近的候选补丁。此外，许多方法探索局部部分的拓扑表示，例如树结构[27]或超像素上的图结构[6]。与这些方法不同，我们使用递归神经元来模拟来自多个方向的部分的依赖性，这不仅可以减少部分遮挡的影响，还可以构建远程纹理依赖性。此外，RNN比具有树或图结构的模型更简单，更容易控制。

相关滤波器在视觉对象跟踪方面取得了很大进展[8]。特别是在提出了最小平方误差输出和（MOSSE）[4]滤波器之后，已经开发了许多相关滤波器方法。Henriques 等人。[22]介绍了内核技巧策略，Danelljan 等人。[13]使用颜色属性来更好地表示输入信息。为了解决规模问题，SAMF [28]，DSST [11]和改进的KCF [23]随后被提出并实现了最先进的性能。随着更多方法的发展[33]，[31]，[29]，基于相关滤波器的跟踪器已经证明了它们的高效性和鲁棒性。特别是，同步开发了相关滤波器[12]的正则化工作。但与[12]不同，RTT通过使用RNN自适应地学习更可靠的滤波器，同时采用高效优化滤波器学习。

此外，最近提出了一些基于深度学习的跟踪方法[32]，[43]。他们通常通过在外部大规模数据集上训练卷积神经网络（CNN）来专注于学习更强大的功能。相比之下，这项工作的重点是纯粹的跟踪任务，其中只能使用第一帧。将CNN合并到我们的框架中是直截了当的，例如，用CNN特征图直接替换HOG（下面使用的）。
2.2 递归神经网络
传统的RNN通过将输入序列映射到一系列隐藏状态来学习复杂的时间动态，并通过递归方程将隐藏状态映射到输出：
在这里插入图片描述
σ是元素的非线性激活函数（例如，sigmoid函数或者双曲线正切函数），Xt是第t个输入（帧），ht是相应的隐藏层状态，Ot是时间t的预测输出。给定长度为T的输入序列{X1,X2,…,XT}，推断按具有初始隐藏状态H0=0的顺序计算{h1,O1,h2,O2,…,hT,OT}。
3. Recurrently Target-Attending Tracker
在本节中，我们首先该书所提出的RTT跟踪器。然后我们详细说明了置信图的生成和判别过滤器的学习过程。
3.1概述
有关RTT框架的概述如图1所示。给定一个视频帧，我们首先确定一个小的候选区域，该区域是前一帧中定位结果周围的边界框大小的2.5倍，考虑到连续视频帧之间的运动通常是微妙的。对于该候选区域，使用网格状分区来产生视觉部分，并且提取每个部分的特征以用于下一个跟踪。在实践中，可以使用汇集在空间网格上的一些描述符，例如HOG [17]或来自CNN [38]的高级特征。此后，我们可以获得基于部件的功能
d个的每个候选区区域的频道，其中h,w是空间部分/网格的高度和宽度。
在这里插入图片描述
图1 我们提出的RTT跟踪器的插图。为了在跟踪期间识别和利用那些可靠的组件，通过使用多方向RNN来估计置信度图，并进一步用于规范相关滤波器。虚线表示RNN的工作流程。⊙是逐元素乘法运算。更多细节在第3节中描述。
RTT尝试识别那些可靠的部件，然后利用它们进行稳健的跟踪。由于在空间相邻的部分之间存在密切的相互作用，甚至是不相交的部分，部分之间的关系可以提供有价值的背景信息，而不仅仅依赖于单个部分。然而，2D空间中部件的相互作用远比马尔可夫链结构复杂。在这里，我们使用循环神经网络来表征部件及其复杂的依赖关系，因为它更简单，能够收集远程上下文线索。此外，为了补偿2D空间中使用的单个RNN的不足，我们使用了几个空间RNN（例如，，quaddireactional RNNs）从不同角度遍历空间候选区域。这种策略可以有效地减轻跟踪期间部分遮挡或局部外观变化的污染。空间RNN产生每个部分的置信度分数，其构成整个候选区域的置信度图。置信度图实际上表示每个部分是背景或目标的概率。因此，置信度图可用于预测遮挡的存在并指导模型更新。有关置信度图生成的更多详细信息，请参见第3.2节。

此外，置信度图可以结合到判别跟踪器的学习中。由于传统的相关滤波器跟踪器通常相同地处理所有部件，因此增量学习倾向于产生偏离预期轨迹的结果，这是由于其对来自杂波背景或遮挡区域的噪声的敏感性。幸运的是，RNN产生的置信图可以在一定程度上反映候选区域的可靠性。因此，可以采用置信度图来自适应地屏蔽相关滤波器以抵抗滤波器学习期间杂乱背景或部分遮挡的那些负面影响。滤波器加权策略使得RTT更加鲁棒，以减轻模型漂移期间由于使用可靠组件而导致的模型漂移。与基于相关滤波器的方法类似，RTT在频域中进行学习过程。关于加权滤波器学习的更多细节在下面给出第3.3节。
如上所述，在模型训练和更新期间，RTT通过利用置信度图自适应地对滤波器进行正则化来学习更多的判别相关滤波器。在测试中，RTT简单地使用学习的判别过滤器来检测目标，因为判别信息已经自适应地渗透到跟踪器中。
3.2 空间置信度图
递归神经网络具有由其重复连接赋予的记忆能力。一种流行的模型是最近提出的长期短期记忆（LST-M）[24]。但是，LSTM具有高自由度参数空间。在如此大的空间中搜索参数具有特别针对在线跟踪任务的过度拟合的风险，其中训练样本通常是稀缺的。为了解决这个问题，我们在这里选择传统的RNN单元，它有一些要解决的模型参数。
具体的说，我们假设候选部分X用图表来表示 g= { γ， ε }，其中V={Xij}(i=1,…,h,j=1,…,w)表示由空间坐标索引的部分的顶点集，和 ε=(eij,kl)表示空间相邻部分的边缘。穿越g，通过预定义的前向进化序列，我么定义递归神经网络网格的单元输入状态和先前状态。这里便利的唯一要求是在完成前面的处理之前，不能处理一个节点。形式上，RTT中采用的多向RNN可以写成
在这里插入图片描述
xij,hrij,Oij分别小时输入，隐藏和输出在节点(i,j)位置上的表示，Nij是向量(i,j)在图g上的前面事务的集合， r代表一个遍历的方向d，hrij集合了当前状态(i,j)的所有前面事务的信息，输出总结了来自各个方向的刺激D。学习到的参数在这里插入图片描述
在遍历图表时反复使用g。这里是非线性函数σ1对于隐藏层是ReLU [10]。
为了使遍历过程中的遍历信息互补，我们考虑从四个角点开始的四个横行方向。例如，从左上角遍历的方向负责捕获左上角区域的上下文提示，相邻的前一个区域设置为Nij={(i,j-1),(i-1,j-1),(i-1,j)}。在二维空间平面中，通过连接相邻部分并分别从四个方向遍历这些部分，可以生成四个有向无环链以表示二维邻域系统。随着在Eqn中制定的链中的连续传播。（3），可以实现部件之间的相互作用。

为了获得在输出层中的概率图，我们使用标准SOFTMAX功能，即：在这里插入图片描述
交叉熵损失可以自然地用作目标函数：

y ∈ C = {0,1}是背景或目标区域的预期二进制指标。和Pr是该模型的输出概率。在模型训练和更新中，我们只需将标签1分配给局部边界框内的那些部分，而将0分配给外部部件，因为我们没有准确的标签。
3.3 加权相关滤波器
基于相关滤波器的方法是学习一组滤波器{f k},k = 1,··· ,d，每个用于一个特征频道X={x1,x2,x3…,xd}，加权相关滤波器的学习可以正式编写为最小化以下损失函数：在这里插入图片描述
其中*表示空间卷积，⊙是元素乘法运算，Fk和第k个信道特征卷积，权重w通过使用多向RNN产生的置信度图来规范相关滤波器。根据Parseval定理，等式（6）中的目标函数相当于频域中的以下损失函数：
表示所涉及变量的FFT变换和常数因子λ 是一个平衡参数，根据FFT的实际实现，只需设置为
在这里插入图片描述
为了对目标函数进行矢量化，我们引入了一些额外的符号。让
X表示具有来自向量的对角元素的对角矩阵X，W表示通过移动其基矢量来表示循环矩阵W在每一行中，第一行设置为W，因此等式（7）中的目标函数可以写成在这里插入图片描述
然而上述等式是在复杂的领域中定义的，其中一些理论不能直接应用于真实空间。改造ς（f^）在真实域中，我们将矢量/矩阵中的每个复数值分解为分别对应于其实部和虚部的两个实数值。具体地说，矩阵和向量分别按以下公式扩展在这里插入图片描述
因此等式（8）的目标函数等同于真实域中的以下函数：

是对应于实值矩阵/向量X，W，f,y和n=h x w。
等式中的损失函数通过引入矩阵计算可以进一步简化（9），通过定义连接矩阵X=[X1,X2,…,Xd]∈R（2nx2nd），在这里插入图片描述
W=
W是一个块对角矩阵，对角线元素是W~，我们有个一更简介的算是函数：

显然该损失函数具有通过将其差值设置为零而获得的闭合形式最小解，即，
但是我们必须在真实的大小矩阵上计算逆运算 2 n d× 2 n d，这决定了优化的计算成本。由于通常采用多通道特征，因此矩阵逆的计算复杂度通常是O （n3d3），这对于实际应用来说太贵了。幸运的是，我们开发了一种有效的解决方案，只需要计算大小矩阵的逆矩阵2 n × 2 n。它将计算复杂度降低了一倍d3，这对于高维特征非常重要。解决方案在以下命题中呈现。
**假设1 **
假设W~是可逆的，最佳解决方案F在等式（9）中是：在这里插入图片描述
证明
作为矩阵W是可逆的，矩阵P=WtW 是对称且正定，执行奇异值分解（SVD），P可写成P=SVST，其中S是正交矩阵，V
是包含非负元素的对角矩阵。让Q表示等式（11）中的（XTX+ λWTW），根据我们所用的一般矩阵代数：
在这里插入图片描述
让U=XSV-1，通过Woodbury矩阵里的识别，我们有
根据定义w_{，X，和（W}TW~）-1=SV-1V-1ST，我们可以根据等式（12）中推导出结果
如Xk根据上述扩展，由对角复矩阵产生，它是高度稀疏的。因此矩阵乘法Xk可以通过简单地切换矩阵行列并执行逐元素乘法运算来实现。因此，整体计算复杂度是O(n3+dn2），明显小于O（d3n3），直接接触方程式（11）。
4 实施
在这里我们提出了一些实现细节，包括特征提取，遮挡决策，比例估计和模型更新。
特征提取
这里我们使用HOG [17]的变体，它在跟踪任务中很流行。HOG特征从一系列空间网格中采样4 × 4然后将像素量化为31个区间。我们不使用其他功能，如颜色信息甚至卷积功能，即使更强大的功能可以提升跟踪性能，因为我们的目标是探索一些内在效果，以减轻跟踪任务中的模型漂移问题。
比例估计
类似于[28]，我们使用多尺度搜索技术来估计目标尺寸的变化，其中缩放因子被定义为{0.985,0.99,0.995,1.0,1.005,1.01,1.015}。
遮挡决定
从空间RNN产生的置信度图用于预测遮挡的存在。当预测对象被高概率地遮挡时，不更新模型。具体地说，我们将整个置信度分数定义为目标区域内概率值的累积。如果当前分数小于某个比例τ在先前帧的平均得分中，当前帧被认为是被遮挡的。在实践中，门槛τ 设置为0.85。
RNN训练和更新
标准的反向传播时间（BPTT）策略用于训练RNN。在空间RNN中，隐藏层的维度与通道数量相同。由于训练样本不足，我们采用前五帧训练空间RNN，学习率为0.02。RNN在后续帧中以固定的五帧间隔进行更新。为了避免在当前帧中过度拟合，我们在微调中使用0.001的小学习率和几次迭代乘以100。学习动力固定为0.9。
过滤更新
更新过程很简单，只是第一帧用于初始化模型。与之前基于相关滤波器的方法类似，我们将新滤波器与旧滤波器线性组合，如下所示在这里插入图片描述
学习因素θ设置为0.025
5.实验

5.1 外观变异 - 参与预测
为了研究多方向RNN预测外观变化的有效性，在图2中，我们展示了两个视频序列，涵盖了不同的外观变化，包括物体遮挡，变形和光照变化。我们将边界框内部分得分的平均值作为边界框的响应值。为了预测遮挡的存在，我们使用先前响应的平均值作为参考值，如图2中的实线所示。移动平均线下方的山谷表明相应框架中存在戏剧性的外观变化。例如，图2（a）中的两个山谷是由部分遮挡和耀眼的光线引起的。基于观察，我们可以得出结论，根据当前状态自适应地更新模型对于减少由戏剧性外观变化引起的伪影是必要的。在这里插入图片描述

5.2 基于相关滤波器的跟踪器比较
为了评估我们提出的RTT的性能增益，我们比较了六种基于相关滤波器的方法，包括CN [13]，CSK [22]，KCF [23]，SA [28]，MF [28]和SAMF [28]。由于RTT仅使用HOG功能，因此SA应该是标准基线。SA是一种尺度自适应相关滤波方法，也使用HOG特征。图3显示了单程评估（OPE）的VOR曲线和CEL曲线[44]对于基准数据集上的这些比较跟踪器。虽然所有这些跟踪器都使用循环滤波器，但它们的跟踪性能却大不相同。CSK仅使用原始特征，因此在比较的方法中给出了最差的结果。CN利用颜色特征并提高性能。其余比较方法采用强大的HOG功能。此外，SAMF和MF还将灰色和颜色信息融合为其特征。与标准基准SA相比，就VOR和CEL指标而言，RTT的性能增益分别约为5％和10％。在之前基于CF的方法中，SAMF获得了最佳性能，VOR得分为56.7％，CEL得分为77.4％。我们提出的RTT方法在VOR和CEL曲线方面分别优于SAMF跟踪器约2.1％和4.7％
在这里插入图片描述
5.4讨论
所提出的模型预测局部部分的置信度得分，因此它给出候选区域的粗略概率估计。更精确的估计在更细粒度的水平（如超像素级别）对于更强大的跟踪应该是有意义的。可能的方向是同时执行对象分割和跟踪。但是，这将导致更高的计算成本。目前，我们的实现在普通PC（2.80GHz，16G内存）上使用非优化的python代码运行大约3〜4 Fps。主要的时间成本仍然花费在矩阵求逆上，尽管我们已经将计算复杂度降低了一倍d3。需要探索通过近似矩阵求逆来加速算法的未来工作。

6.结论
在本文中，我们引入了Recurrently Target-attennding Tracker（RTT）来识别和利用这些可靠的组件并获得更好的跟踪结果。为了有效地找到那些可靠的组件，我们采用四向空间递归神经网络从不同角度遍历整个候选区域。由于对本地部件及其依赖性进行建模，即使存在部分遮挡，也表明循环网络能够捕获一些不变且可靠的信息。来自递归神经网络的所产生的置信图被证明对于预测闭塞的存在是有效的。同时，置信度图用于在训练期间对相关滤波器进行加权，这成功地抑制了一些杂波背景信息并充分利用了可靠的组件。为了学习判别过滤器，我们提供了一种计算复杂度低的精确解析解决方案。最后，与几个最先进的跟踪器相比，我们从广泛的实验中获得了令人鼓舞的实证结果。

sunyuxiu

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
深度解读（3）Recurrently Target-Attending Tracking

（译）本文提出一种循环网络进行目标跟踪的方法，称为RTT，RTT的主要目的是为了解决目标遮挡的问题循环神经网络的作用是得到置信度图，即每个点处是目标的概率。下面是我对这种方法理解的处理过程。在对每一帧进行跟踪时，给定目标在上一帧中的矩形框中，以目标的中心为中心，以目标的2.5倍为宽高，即将目标矩形放大2.5倍（）。然后将这个候选区域划分成网格。然后对每个矩形框提取特征，可以使用HOG特征，也可...
复制链接

扫一扫