摘要
Siamese网络由于具有良好的准确性和速度而引起视觉跟踪领域的广泛关注,但其使用的网络相对比较浅,比如AlexNet,难以充分发挥深度神经网络的优势。因此,作者对如何平衡卷积神经网络的深度和宽度从而实现跟踪的鲁棒性和准确性的问题进行研究。实验发现,直接将Siamese网络中的骨干网络换成深度更深的网络架构对跟踪效果没有提升。作者分析认为,一方面,大幅增大神经元感受野会降低特征判别性和定位精度;另一方面,卷积操作中padding操作会影响学习的准确性。为了解决上述问题,文中提出新的残差模块来消除padding操作对跟踪效果的负面影响,并使用这些模块构造具有适宜感受野大小和网络步长的轻量级网络结构。实验结果表明,在Siamese网络中嵌入上述残差模块,能保证了跟踪的实时性。
背景
为了充分发挥深度神经网络的优势,作者直接将原Siamese网络中的浅层网络换成深度更深的网络,但实验效果不增反减,甚至随着深度加深,跟踪效果逐步下降。作者分析了Siamese网络的结构并得到影响网络跟踪性能的三个主要因素:神经元感受野的大小;网络步长;特征填充。
- 神经元感受野决定了计算特征时的图像区域大小,较大的感受野提供更丰富的上下文信息,较小的感受野可能难以完全捕捉目标对象的特征。
- 网络步长影响了定位精度,对小目标物体影响更加显著;并控制着输出的特征图大小,影响特征判别性和跟踪准确性。
- 对于一个全卷积网络结构,特征