SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

最新推荐文章于 2022-03-28 11:51:37 发布

萤火虫啊飞呀飞

最新推荐文章于 2022-03-28 11:51:37 发布

阅读量455

点赞数

分类专栏：目标跟踪论文阅读

本文链接：https://blog.csdn.net/shey666/article/details/106063670

版权

目标跟踪论文阅读专栏收录该内容

12 篇文章 4 订阅

订阅专栏

摘要

作者发现，目前基于Siamese系列算法大多使用类似AlexNet的浅层网络结果进行特征提取，而直接替换为类似ResNet-50等深层网络会导致跟踪性能下降，无法像目标识别等任务一样充分发挥深度网络的优势。这种现象的核心原因在于网络的padding会破坏Siamese系列网络的平移不变性，本文通过一个简单但有效的空间感知采样策略来打破Siamese系列所需的这一限制，此外还通过多层特征融合和depthwise cross-correlation来进一步提高跟踪准确性并降低模型参数。

背景

SiamFC中通过滑动窗口来计算模板帧和搜索帧每个位置的相似性，这会带来两个限制：

网络需要满足严格的平移不变性，而加入padding会破坏这种性质。（因此，SiamFC使用浅层网络，不加padding）所谓平移不变性，通俗理解就是不管物体位于图片什么位置都要求输出相同的结果。

为什么SiamFC满足平移不变性？SiamFC网络在训练过程中，训练图像对（x,z）两张图片就是以目标为中心进行裁剪的，计算相似性得到的响应图最大值的位置也基本位于中心。也就是说，不管目标的位置在哪里，经过剪裁计算得到的响应图是中心位置得分高，边缘位置得分低。

网络要有对称性，也就是如果将模板帧与搜索帧图像调换顺序进行相似性计算，输出的结果也应该不变。这一点会引导网络结构的设计，具体看paper。

贡献

1、由于padding的加入，破坏了平移不变性（带来了平移等变性，使得输出和输入有了空间上的对应关系），因此，本文通过施加位置偏移，使得网络扩大关注范围，也就是说，在训练过程中，我们不再把正样本块放在图像正中心，而是按照均匀分布的采样方式让目标在中心点附近进行偏移，从而缓解网络因为破坏了严格平移不变性带来的影响，从而使深层网络可以应用于跟踪算法中。
2、浅层特征和深层特征线性加权融合，学习更丰富的特征。
3、depthwise cross-correlation中一个卷积核独立负责一个特征通道，最终卷积得到的feature map数量与输入的通道数一致，从而可以得到一个通道数非1的输出，可以在后面添加一个普通的 1x1卷积就可以得到分类和回归的结果。

参考

[1] 解释平移不变性：https://zhuanlan.zhihu.com/p/126504785
[2] 论文解读：https://blog.csdn.net/WZZ18191171661/article/details/88579348

萤火虫啊飞呀飞

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

摘要作者发现，目前基于Siamese系列算法大多使用类似AlexNet的浅层网络结果进行特征提取，而直接替换为类似ResNet-50等深层网络会导致跟踪性能下降，无法像目标识别等任务一样充分发挥深度网络的优势。这种现象的核心原因在于网络的padding会破坏Siamese系列网络的平移不变性，本文通过一个简单但有效的空间感知采样策略来打破Siamese系列所需的这一限制，此外还通过多层特征融合和depthwise cross-correlation来进一步提高跟踪准确性并降低模型参数。背景SiamFC
复制链接

扫一扫

专栏目录