更深更宽的孪生网络，有效提升目标跟踪精度，代码开源

最新推荐文章于 2024-06-18 09:36:03 发布

我爱计算机视觉

最新推荐文章于 2024-06-18 09:36:03 发布

阅读量1.2k

点赞数 1

本文链接：https://blog.csdn.net/moxibingdao/article/details/106667712

版权

本文深入解读了CVPR 2019的论文，探讨了为何在目标跟踪中使用深层网络如ResNet、Inception并未提升性能，反而AlexNet更为常见。作者通过实验发现感受野、网络步长等因素对跟踪性能至关重要，并提出了新的CIR模块和网络设计原则，提高了模型的鲁棒性和精度，相关代码已开源。

摘要由CSDN通过智能技术生成

点击我爱计算机视觉标星，更快获取CVML新技术

本文为52CV群友Mr.Chen投稿，深入解读了CVPR 2019 跟踪方向的论文Deeper and Wider Siamese Networks for Real-Time Visual Tracking，谷歌学术显示该文公开一年来已有47个引用，值得做相关方向的同学参考。

论文：

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

paper：https://arxiv.org/pdf/1901.01660.pdf

代码：https://github.com/researchmm/SiamDW

作者从机理上解释了为什么Siamese系列的跟踪网络用的最多的仍然是AlexNet，而没有用如今更强的backbone，诸如ResNet、Inception等深层网络。

通过大量的试验对比，作者发现了几个因素对深层网络的跟踪性能影响很大：感受野 the receptive field、网络步长network stride、有无padding 以及最后输出层的尺寸 output feature size。

作者进一步分析实验结果，从网络结构的角度总结了Siamese 网路设计时应该遵循的原则。依据设计原则，在传统深层网络的基础上引入了CIR模块以及CIR-D模块，提高了模型跟踪的鲁棒性和精度，在VOT-15、VOT-16上取得了SOTA的效果。

背景&动机

在目标跟踪中Siamese networks 以其均衡的精度和速度受到了广泛的关注。然而，Siamese trackers中的backbone networks使用了相对较浅的网络模型，例如AlexNet。

为此，作者尝试了使用深层的如ResNet和Inception直接替换原有的backbone networks，但奇怪的是并没有带来任何改进，如图1的蓝线所示(红线是作者提出的方法)。

这是为什么？这与我们认知的深层网络有着更强大的拟合以及抽象能力，背道而驰。

出于这样的动机作者进行了深入的数据分析，发现其主要原因是:

1)随着层数的增加，最后一层神经元感受野的尺寸会增加，这导致了特征的可识别性和定位精度降低;

2)卷积网络padding操作可能会导致目标位置发生偏差(当目标处于图像边缘时候会出现)。

为了解决这些问题，作者提出了新的残差模块，以消除padding操作所带来的负面影响，同时应用这些模块，重新设计了更深、更宽的网络结构，调整了感受野的大小以及stride&#x

关注