更深更宽的孪生网络,有效提升目标跟踪精度,代码开源

本文深入解读了CVPR 2019的论文,探讨了为何在目标跟踪中使用深层网络如ResNet、Inception并未提升性能,反而AlexNet更为常见。作者通过实验发现感受野、网络步长等因素对跟踪性能至关重要,并提出了新的CIR模块和网络设计原则,提高了模型的鲁棒性和精度,相关代码已开源。
摘要由CSDN通过智能技术生成

点击我爱计算机视觉标星,更快获取CVML新技术


本文为52CV群友Mr.Chen投稿,深入解读了CVPR 2019 跟踪方向的论文Deeper and Wider Siamese Networks for Real-Time Visual Tracking,谷歌学术显示该文公开一年来已有47个引用,值得做相关方向的同学参考。

论文:

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

paper:https://arxiv.org/pdf/1901.01660.pdf

代码:https://github.com/researchmm/SiamDW

作者从机理上解释了为什么Siamese系列的跟踪网络用的最多的仍然是AlexNet,而没有用如今更强的backbone,诸如ResNet、Inception等深层网络。

通过大量的试验对比,作者发现了几个因素对深层网络的跟踪性能影响很大:感受野 the receptive field、网络步长network stride、有无padding 以及最后输出层的尺寸 output feature size。

作者进一步分析实验结果,从网络结构的角度总结了Siamese 网路设计时应该遵循的原则。依据设计原则,在传统深层网络的基础上引入了CIR模块以及CIR-D模块,提高了模型跟踪的鲁棒性和精度,在VOT-15、VOT-16上取得了SOTA的效果。

背景&动机

在目标跟踪中Siamese networks 以其均衡的精度和速度受到了广泛的关注。然而,Siamese trackers中的backbone networks使用了相对较浅的网络模型,例如AlexNet。

为此,作者尝试了使用深层的如ResNet和Inception直接替换原有的backbone networks,但奇怪的是并没有带来任何改进,如图1的蓝线所示(红线是作者提出的方法)。

这是为什么?这与我们认知的深层网络有着更强大的拟合以及抽象能力,背道而驰。

出于这样的动机作者进行了深入的数据分析,发现其主要原因是:

1)随着层数的增加,最后一层神经元感受野的尺寸会增加,这导致了特征的可识别性和定位精度降低;

2)卷积网络padding操作可能会导致目标位置发生偏差(当目标处于图像边缘时候会出现)。

为了解决这些问题,作者提出了新的残差模块,以消除padding操作所带来的负面影响,同时应用这些模块,重新设计了更深、更宽的网络结构,调整了感受野的大小以及stride&#x

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值