点击我爱计算机视觉标星,更快获取CVML新技术
本文为52CV群友Mr.Chen投稿,深入解读了CVPR 2019 跟踪方向的论文Deeper and Wider Siamese Networks for Real-Time Visual Tracking,谷歌学术显示该文公开一年来已有47个引用,值得做相关方向的同学参考。
论文:
Deeper and Wider Siamese Networks for Real-Time Visual Tracking
paper:https://arxiv.org/pdf/1901.01660.pdf
代码:https://github.com/researchmm/SiamDW
作者从机理上解释了为什么Siamese系列的跟踪网络用的最多的仍然是AlexNet,而没有用如今更强的backbone,诸如ResNet、Inception等深层网络。
通过大量的试验对比,作者发现了几个因素对深层网络的跟踪性能影响很大:感受野 the receptive field、网络步长network stride、有无padding 以及最后输出层的尺寸 output feature size。
作者进一步分析实验结果,从网络结构的角度总结了Siamese 网路设计时应该遵循的原则。依据设计原则,在传统深层网络的基础上引入了CIR模块以及CIR-D模块,提高了模型跟踪的鲁棒性和精度,在VOT-15、VOT-16上取得了SOTA的效果。
背景&动机
在目标跟踪中Siamese networks 以其均衡的精度和速度受到了广泛的关注。然而,Siamese trackers中的backbone networks使用了相对较浅的网络模型,例如AlexNet。
为此,作者尝试了使用深层的如ResNet和Inception直接替换原有的backbone networks,但奇怪的是并没有带来任何改进,如图1的蓝线所示(红线是作者提出的方法)。
这是为什么?这与我们认知的深层网络有着更强大的拟合以及抽象能力,背道而驰。
出于这样的动机作者进行了深入的数据分析,发现其主要原因是:
1)随着层数的增加,最后一层神经元感受野的尺寸会增加,这导致了特征的可识别性和定位精度降低;
2)卷积网络padding操作可能会导致目标位置发生偏差(当目标处于图像边缘时候会出现)。
为了解决这些问题,作者提出了新的残差模块,以消除padding操作所带来的负面影响,同时应用这些模块,重新设计了更深、更宽的网络结构,调整了感受野的大小以及stride&#x