Introduction
主要介绍了本篇文章的主要贡献
-
对孪生神经网络跟踪器进行深入分析,并证明了当使用深度网络时导致精度下降的原因是严格的平移不变性被破坏。
-
提出了一种简单而有效的采样策略来打破空间不变性的限制,成功地训练了由ResNet结构驱动的孪生网络跟踪器。
-
propose a layer wise feature aggregation多层特征融合 structure for the cross-correlation operation
-
propose a depth-wise separable correlation structure to enhance the cross-correlation to produce multiple similarity maps associated with different semantic
meanings.
3. Siamese Tracking with Very Deep Networks
3.1. Analysis on Siamese Networks for Tracking
对孪生网络从原理上进行分析内在的限制:
一个是平移不变性
二是结构对称性
而为什么使用了深层网络性能反而下降呢?
一是因为padding影响平移不变性;二是因为RPN网络分类分支和回归分支不对称。
3.1主要介绍了spatial aware sampling strategy(空间感知采样策略) 用来解决问题一。因为padding破坏了平移不变性,所以当我们固定search image中正样本集中在中心时(同模板图像中的设置:以目标为中心,这里指的是之前siamfc那样的样本设置,即以欧式距离设置正样本),这样我们的网络将会学习到一个中心位置偏差导致性能下降,所以在search image中随机的选取目标(也就是正样本)来进行训练。
其中shift定义如下:
3.2. ResNet-driven Siamese Tracking
主要介绍了一下怎么用ResNet-50作为现在的特征提取网络,有一些改进措施使得resnet50用于跟踪算法中,例如:缩小步长,减小了模板图像的输出特征图等。
这一部分可以细看代码,主要还是理解下面的两个策略。
网络结构图如下:
3.3. Layer-wise Aggregation
需要多层特征融合的必要性:
如何做:
简单来说,主要就是把三个层的输出分别输入到三个不同的RPN模块中,再把RPN模块的输出进行一个加权。
3.4. Depthwise Cross Correlation
这里其实就是将RPN模块中的原来的卷积用**深度可分离卷积(Depthwise Cross Correlation DW- XCorr )**替代了。怎么理解depthwise卷积呢?可以查下这是 Xception 以及 MobileNet ,这是这个系列的精华所在。或者可以直接看下面这个图
具体操作可以在细看代码 :
这一步的主要目的就是压缩模型,减少参数数量,便于训练。
同时还发现了一个神奇的事情::同一类目标在同一通道上(第148通道的car、第222通道的person、第226通道的face)响应较高,其余通道的响应均受到抑制。这一特性可以理解为深度互相关所产生的信道特征几乎是正交的,并且每个信道都代表一些语义信息。