SiamRPN++简述

最新推荐文章于 2024-03-02 16:38:15 发布

optimistic丶中

最新推荐文章于 2024-03-02 16:38:15 发布

阅读量1.6k

点赞数

文章标签：深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/qq_40402444/article/details/121096877

版权

因为项目和方向的改变，现在记录一下以前写过的一些论文阅读报告

本文贡献

本文贡献主要主要四方面：
1.对孪生跟踪器进行了深入的分析，并证明在使用深网络时，精度的降低是由于绝对平移不变性的破坏。
2.提出了一种简单而有效的采样策略，以打破空间不变性限制，成功地训练了基于Resnet架构的孪生跟踪器。
3.提出了一种基于层次的互相关操作特征聚集结构，该结构有助于跟踪器根据多层次学习的特征预测相似度图。
4.提出了一个深度可分离的相关结构来增强互相关，从而产生与不同语义相关的多重相似度图。

本文工作

首先对孪生追踪网络进行了深入的分析。认为阻止使用深度网络的暹罗跟踪器的主要原因与两个方面有关：具体而言，原因之一是深层网络中的padding会破坏严格的转换不变性；另一个是RPN需要非对称特征进行分类和回归。作者认为padding会导致spatial bias，为了证明这个结论，作者进行了偏移实验。
在里插入图片描述
图1表示，当没有偏移时，边界区域的概率为0，增加偏移到32的时候，分布更加均匀，为了避免对物体产生强烈的中心偏差，通过空间感知采样策略，使用ResNet-50主干训练SiamRPN,在VOT2018上实验，得到结果如下：

在这里插入图片描述
结果表明随机偏移64个像素时，它的效果最好，这可能是因为增加随机扰动能够更接近目标的位置分布。

在这里插入图片描述
主要的实验是在ResNet-50上做的。现代化网络一般都是stride32，但跟踪为了定位的准确性，一般stride都比较小（Siamese系列一般都为8），所以把ResNet最后两个block的stride去掉了，同时增加了dilated convolution，一是为了增加感受野，二是为了能利用到预训练参数。论文中提到的MobileNet等现代化网络也是进行了这样的改动。如上图所示，改过之后，后面三个block就一致了。

在这里插入图片描述
在孪生网络中，存在不同的Cross Correlation，例如SiamFC使用的Cross Correlation如上图a所示，SiamRPN使用的Cross Correlation如上图b所示，本文使用的Cross Correlation如上图c所示。
作者分析发现在RPN中，上述Cross Correlation方式约有20M参数，但是特征提取器中大概只有4M参数，这会导致参数分布不平衡，从而导致SiamRPN很难优化。
为了解决这种分布不平衡，作者提出Depth-wise Cross Correlation。它按照通道卷积，大幅减少参数，提高算法速度。
通过这种方式会使某一类别由特定的通道输出，而其余的通道会受到抑制

实验部分

（1）消融实验

在这里插入图片描述
1）网络方面，从AlexNet换成了ResNet50以后，我们发现只有conv4的时候就取得了非常好的效果。虽然conv3和conv5效果没有那么好，但由于鲁棒性的提升，使得后续的提升变得有可能。同时对BackBone进行finetune也能带来接近两个点的提升。
2）多支融合，可以从图中看出，同时使用三支的效果明显比单支的要高，VOT上比最好的conv4还要高4个多点。
3）correlation方式，从表中也可以看出，无论是AlexNet还是ResNet，装备了新的correlation方式以后，都有接近两个点提升。
同时，还用了不同的backbone验证了top1 acc和OTB性能的曲线，也证明了算法能够随着backbone的提升而提升。
在这里插入图片描述
（2）与最新技术的比较
1)VOT2018
在VOT2018上与10种最新方法对比，采用预期平均重叠（EAO），准确性（A）和鲁棒性（R）以及基于无重置的平均重叠（AO）来比较不同的FPS

2)OTB-2015

这是Siam跟踪器首次获得与OTB2015数据集上最新跟踪器相当的性能

3）VOT2018 Long-term Dataset.
在这里插入图片描述
在最新的VOT2018挑战赛中，新引入了一项长期实验。它由35个长序列组成，目标可能会长时间离开视野或被完全遮挡。绩效指标是精度，召回率和综合F分数。报告了所有这些指标，并与VOT2018-LT上的最新跟踪器进行了比较
4）UAV123 Dataset
在这里插入图片描述

包括123个序列，平均序列长度915帧，添加了ECO、ECO-HC、DaSiamRPN、SianRPN进行比较
5）LaSOT Dataset
在这里插入图片描述

为了在更大，更具挑战性的数据集上进一步验证所提出的框架，在LaSOT上进行了实验，数据集提供了大规模，高质量的密集注释，该注释总共包含1,400个视频，而测试集中包含280个视频。
6）TrackingNet Dataset
在这里插入图片描述

TrackingNet提供了大量数据以评估野外的跟踪器。

总结

本文是在SiamRPN和DaSiamRPN的基础上做的，提出了一个称为SiamRPN ++的统一框架，以端到端训练深度的Siamese网络（孪生网络）进行视觉跟踪。通过引入空间感知采样策略(随机偏移)缓解平移不变性问题，增加网络深度，提升算法效果。网络由一个多层聚合模块和一个深度相关层组成，该模块将连接的层次结构组装在一起以聚合不同级别的表示形式，而深度相关层则使网络减少了计算成本和冗余参数，同时还带来了更好的收敛性。使用SiamRPN ++，在VOT2018上实时获得了最新的结果，显示了SiamRPN++的有效性。SiamRPN ++还在LaSOT和TrackingNet等大型数据集上获得了最新的结果，显示了其可推广性，这些数据集在以后实验时候或许也能使用。

optimistic丶中

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SiamRPN++简述

SiamRPN++简述因为项目和方向的改变，现在记录一下以前写过的一些论文阅读报告本文贡献本文贡献主要主要四方面： 1.对孪生跟踪器进行了深入的分析，并证明在使用深网络时，精度的降低是由于绝对平移不变性的破坏。 2.提出了一种简单而有效的采样策略，以打破空间不变性限制，成功地训练了基于Resnet架构的孪生跟踪器。 3.提出了一种基于层次的互相关操作特征聚集结构，该结构有助于跟踪器根据多层次学习的特征预测相似度图。 4.提出了一个深度可分离的相关结构来增强互相关，从而产生与不同语义
复制链接

扫一扫