【论文笔记】CVPR2019_SiamDW

最新推荐文章于 2020-12-06 11:07:41 发布

aaon22357

最新推荐文章于 2020-12-06 11:07:41 发布

阅读量846

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/aaon22357/article/details/92845341

版权

论文笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

论文题目： Deeper and Wider Siamese Networks for Real-Time Visual Tracking

概述

本文是CVPR2019的一篇Oral文章，关注点主要在于跟踪网络的backbone不能加深的问题，与SiamRPN++想法如出一辙。

https://blog.csdn.net/fzp95/article/details/88313752
知乎上看到的一个链接 https://zhuanlan.zhihu.com/p/61099402

作者在实验中发现，这几个参数对跟踪结果的影响，非常巨大： the receptive field size of neurons; network stride; feature padding 。
在这里插入图片描述

分析padding对结果的影响：

（ppt来源与极市平台张志鹏直播链接 )

上图是没有padding的情况，中间是Examplar Image，左边是search Image，蓝色网格代表的是cross correlation操作操作后产生的response map（响应图）。
把模板部分的E和检测部分的A，分别经过 $\varphi$ 去提取特征，得到 $\varphi(A)$ 和 $\varphi(E)$ ，然后对这两个特征图进行cross correlation操作，产生的响应图叫R1。
如果search image中的目标进行一定的偏移，这时输入进search分支的是B，Exemplar分支输入的还是E不变，B和E分别经过神经网络后获得feature，然后在做cross correlation，产生的响应图为R2.

可以看出，对于没有padding的网络，如果目标发生了一定的偏移，相应图中的响应点对应的也应该发生一定的偏移，偏移的距离与stride有关。但是响应本身是不发生改变的。

有padding的时候，相当于在原图中映射出了一块更大的区域（在原图中的感受野更大），此时完整的感受野变得更大了，变成了上图中的灰色框。
此时Examplar分支的感受野由原来的E变成了E’，输入search分支对应的感受野由A变成了A’，所以此时变成了：对E’和A’分别通过神经网络提取特征，然后做cross correlation操作，得到的响应图记为R1.
如果对search image中的目标进行偏移，如果加了padding的话，在原图中的感受野会变成B’，所以此时变成了：对E’和B’分别通过神经网络提取特征，然后做cross correlation操作，得到的响应图记为R2.

可以看出，E’是一样的，但是A’不等于B’（如果灰色区域没有超出原图，那么是一样的，但是由于网络加深，感受野会急剧增大，很容易就超出边界），所以R1不等于R2，不满足平移不变性。因为padding的影响，在R2处点的大小不再等于R1。特征不能Align。