目标跟踪论文（五）：Deeper and Wider Siamese Networks for Real-Time Visual Tracking

最新推荐文章于 2023-07-05 13:56:43 发布

Star·端木

最新推荐文章于 2023-07-05 13:56:43 发布

阅读量1.1k

点赞数 1

分类专栏：目标跟踪文章标签：目标跟踪孪生网络深度学习卷积神经网络

本文链接：https://blog.csdn.net/Superstar02/article/details/103102077

版权

目标跟踪专栏收录该内容

7 篇文章 6 订阅

订阅专栏

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

简述：

基于孪生网络的跟踪器通常使用AlxcNet作为backbone，而没有充分利用现在深层网络的优势（比如ResNet、Inception等）。作者发现，如果直接将backbone换成ResNet、Inception等网络，随着深度的增加，效果不升反降，如下图蓝线（红线为作者提出的网络）。产生这种现象的原因有两个：
　　① 神经元感受野的大量增加导致特征的可辩性和定位精度降低。
　　② 卷积网络的padding在学习中引起了位置偏差。
在这里插入图片描述

问题Or主要工作：

问题：
　　作者通过大量实验，发现阻止孪生跟踪算法从更深入，更复杂的网络架构中受益的原因，三个方面：感受野大小、网络步幅、特征填充。
　　① 合适的感受野大小很重要，较大的感受野提供更大的图像上下文信息、较小的感受野可能无法捕获对象的结构。
　　② 网络步幅影响定位精度。比如小尺寸物体，步幅太大，精度就差很多。
　　③ 特征填充（padding）会引起位置偏差，当对象在搜索范围边界附近移动时，难以进行准确的预测。
主要工作：
　　① 对影响控制精度的骨干网络研究后，在“瓶颈”残差块基础上提出自裁残差单元（cropping-inside residual Unit），CIR单元在块内部裁剪出受填充padding影响的特征（即，接收填充信号的特征），从而防止卷积滤波器学习位置偏差。
　　② 通过堆叠CIR单元设计了两种网络结构，更深、更宽（还设定了特定的步幅和感受野体高精度），将新的网络架构替换孪生网络的backbone，取得了State-of-the-Art的性能。

网络架构：

性能退化原因：
由图1，性能下降的直接原因在于网络结构，作者从步幅（STR），填充（PAD），最后一层神经元的感受野（RF）和输出特征尺寸（OFS）四个方面进行了实验，得出如下结论;
　　① 孪生类跟踪器的网络步长要小一点，不能太大，作者推荐4或者8。因为太大了，目标定位的准确性偏差也就大了。
　　② 最后一层感受野的的大小要与样例图片的大小有关，最好是样例图像的60%-80%。因为太大的感受野虽然增加了目标的上下文信息，但是减少了目标本身的局部信息和判别信息。
　　③ 当然，网络的步长、感受野大小要看做整体同时分析。可想而知，这些因素之间并不独立，一个改变，其他的也会随之改变。
　　④ 网络填充padding对最终性能有很大的负面影响，一种是删除填充的操作，还有一种是同时扩大模板帧和检测帧，然后剪裁掉收到padding影响的特征。
模型：
　　根据上面的分析，作者提出了CIR单元（cropping-inside residual units），以消除潜在的位置偏差。

　　上图所示，CIR单元是基于残差块的，(a)(b)是原始的残差块的结构。先看(a’)，CIR单元，作者在addition操作后面加入了crop操作，来去除掉0填充信号对特征计算所带来的影响。因为填充(padding)为1，所以在边界上最外层的特征被剔除掉。再来看(b’)，下采样CIR（CIR-D）单元，将shortcut上的1x1卷积和bottleneck层上3x3卷积的步长都变为1，这样方便addition后的crop操作，然后加入最大池化来进行尺寸的减小。

注：如果我们只是在添加操作之后插入裁剪，如在所提出的CIR单元中所做的那样，在不改变下采样的位置的情况下，裁剪之后的特征将不会从输入图像中的最外面的像素接收任何信号。随着网络深度的增加，这将有效地导致更多的图像内容被移除，从而导致噪声/不完整的提取特征。

CIR-Inception和CIR-NeXt单元：根据Inception和ResNeXt，通过多个特征变换扩展CIR单元，生成CIR-Inception和CIR-NeXt 模块，如下图（c-d）所示。具体来说，在CIR-Inception结构中，作者在shortcut connection中插入一个1x1卷积，并合并两个分支的特征。在CIR-ResNeXt中，我们将瓶颈层拆分为32个转换分支，并通过添加进行聚合。此外，对于CIR-Inception 和CIR-NeXt的下采样单元，修改与CIR-D（图 3（b’））中的修改相同，其中卷积步幅减小并且增加了最大池化层。
在这里插入图片描述
　　作者通过对以上提出的CIR单元的堆叠，构建了更深更宽的网络。首先确定stride，步幅8用于构建3级网络，而步幅4用于构建2级网络。制每个阶段的unit数量和下采样unit的位置。目标是确保最后一层神经元的感受野大小位于有效范围内（图像大小的 60％-80％），形成了六个主干网络结构：
在这里插入图片描述
具体细节：
　CIResNet-22：有3个部分（stride=8），22个卷积层。除了第一个7×7卷积，其他都是CIR单位。在7×7卷积之后进行裁剪操作（大小为2）以移除受padding影响的特征。前两个阶段的特征下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段，通过所提出的CIR-D单元执行下采样，该CIR-D单元位于该阶段的第一个块（共四个）。当feature map大小被下采样时，卷积核的数量加倍以增加特征可辨别性。输出feature map大小是5×5，每个feature感受野的相应大小93×93。
　　CIResNet-43：进一步将网络深度增加到43层，设计为2个阶段，在 CIResNet-43的第二阶段，有14个块，其中第四个块具有用于特征下采样的 CIR-D 单元。

实验：

下图是提出的六个网络作为SiamFC和SiamRPN的主干网络的表现，可以看到，最深的CIResNet-43和最宽的CIResNeXt-22并没有取得最好的效果，原因在于：1）网络步幅变为4，使得两个相邻特征的感受域之间的重叠很大。因此，它不像对象定位中具有8步幅的网络那样精确。2）与Tab3中的其他网络相比，输出要素通道的数量减半。（即256对512通道）。整体参数大小也较小。
在这里插入图片描述
　　在五个基准上与流行的跟踪器的比较：（SiamFC+和SiamRPN+的主干网络采用的是CIResNet-22版本），红色，绿色和蓝色字体分别表示前3名。

　　下图与列出的方法，如EBT，LDP，nSAMF，TCNN，MLDF，CFWCR和CFCF在VOT挑战中进行了比较。SiamRPN +运行速度为150 fps，比MDNet快得多。
在这里插入图片描述
　　表6 SiamFC上残差单元与CIR单元的对比。验证了CIR单元中消除padding的重要性，这基本上消除了学习中的位置偏差。表7：SiamFC中使用的不同下采样设置的对照。Setting1：直接使用原始下采样残差单元。Setting2：在下采样残差单元中插入裁剪操作。表7给出了结果表明我们的CIR-D单元有效。在这里插入图片描述

Star·端木

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
目标跟踪论文（五）：Deeper and Wider Siamese Networks for Real-Time Visual Tracking

Deeper and Wider Siamese Networks for Real-Time Visual Tracking简述：基于孪生网络的跟踪器通常使用AlxcNet作为backbone，而没有充分利用现在深层网络的优势（比如ResNet、Inception等）。作者发现，如果直接将backbone换成ResNet、Inception等网络，随着深度的增加，效果不升反降，如下图蓝线（红...
复制链接

扫一扫