Deeper and Wider Siamese Networks for Real-Time Visual Tracking
一 动机
DW顾名思义就是Deeper and Wider,之前比较成功的孪生网络跟踪器通常使用AlexNet作为backbone,作者觉得AlexNet太简单,太浅,没有充分利用神经网络深度特征的优势,试着把backbone换成更深的更宽的网络,ResNet和Inception,却没有带来改进,甚至带来跟踪器的性能下降,归结原因有二:
-
神经元感受野的大量增加导致特征的可辩性和定位精度降低。
-
卷积网络的padding在学习中引起了位置偏差。
二 分析
这是作者做了大量对比实验总结出来的原因。下面我们来分析一下作者的
为了研究具体原因,作者分析了Siamese网络结构,并确定,神经元的感受野大小,网络步幅和特征填充是影响跟踪精度的三个重要因素。
-
较大的感知区域提供更大的图像上下文,而较小的感知区域可能不捕获目标对象的结构。因此合适的感受野大小非常重要,
-
网络步幅影响定位精度,特别是对于小尺寸物体。同时,步幅控制输出特征图的大小,这会影响特征可辩性和检测精度。
-
对于全卷积结构,卷积的特征填充在模型训练中引起潜在的位置偏差,使得当对象在搜索范围边界附近移动时,难以进行准确的预测。
三 方案
作者提出的解决方案:在残差瓶颈架构的基础上提出一组CIR Unit(cropping-inside residual Unit,自裁残差单元),残差瓶颈架构是ResNet提出的一种结构,加深网络结构的同时并没有增加时间复杂度。接着通过堆叠CIR单元设计出两种网络架构,即更深和更宽的网络。(其中步幅和感受野被配置来增强定位精度)最后只需将新的网络架构替换孪生网络跟踪器的backbone即可。
四 框架设计
那么跟踪框架具体是怎么设计的呢?
作者对影响跟踪精度的骨干网络因素进行了系统研究,研究了替换网络性能下降的深层次原因,对网络结构的内部因素进行消融实验,并确定对性能下降影响最大的因素。并借研究的结果为Siamese跟踪框架提供了架构设计指南。