目标跟踪论文(四):SiamRPN++_ Evolution of Siamese Visual Tracking With Very Deep Networks

SiamRPN++_ Evolution of Siamese Visual Tracking With Very Deep Networks

简述:

尽管已经有很多基于Siamese跟踪算法,但目前的这类网络大都使用浅层的类AlexNet作为基准特征提取器。而利用深度网络(例如ResNet-50等网络)其性能不升反降,作者证明其核心原因在于缺乏绝对的平移不变性。作者提出了空间感知采样打破了这一限制,并提出分层深度聚合的架构,在五大跟踪数据集上均获得了最佳效果。

问题or相关工作:

现有的Siamese网络虽然在精度和速度方面的均取得了不错的性能,但是基本上都是在AlexNet改进的网络架构,而深层网络无法提升跟踪的性能。主要工作如下:

  1. 对孪生跟踪器进行了深入的分析,并证明在使用深网络时,精度的降低是由于绝对平移不变性的破坏。
  2. 提出空间感知采样策略,打破空间不变性的限制,成功地训练了基于Resnet架构的孪生跟踪器。
  3. 提出了一种基于层次的互相关操作特征聚集结构,有助于跟踪器根据多层次学习的特征预测相似度图。
  4. 提出了一种深度可分相关结构,以增强相互关系,生成具有不同语义意义的多重相似映射。

算法&模型:

  1. 分析孪生网络的性质:
    传统的Siamese网络:
    (1)需要满足严格的平移不变性,padding会破坏这种性质;
    (2)网络具有对称性,即如果将搜索区域图像和模板区域图像进行互换,输出的结果应该保持不变。(因为是相似度,所以应该有对称性)。
    分析:
      现代化网络:通常物体检测和语义分割的baseline backbone都采用ResNet50的结构。为了保证网络具有适当/整齐的分辨率,几乎所有的现代网络backbone都需要执行padding操作。而ResNet网络中具有padding操作,即该网络肯定不具备严格的平移不变性,padding的引入会使得网络输出的响应对不同位置有了不同的认知。而我们进行进一步的训练是希望网络学习到如何通过物体的表观特征来分辨回归物体,这就限制了深网络在tracking领域的应用。
      网络对称性:由于SiamRPN不再是进行相似度计算,而是通过计算回归的偏移量和分类的分数来选择最终的目标,这将使得该网络不再具有对称性。因而在SiamRPN的改进中需要引入非对称的部件,如果完全Siamese的话没法达到目的,这一点主要会引导后面的correlation设计。
      作者发现平移不变性破坏,会导致学习到的位置偏见:网络会给图像的中心位置分配更大的权重。具体的效果如下图所示:
    在这里插入图片描述

核心:那么,SiamRPN++的shift是什么意思呢:训练的时候search region会移动,以前是以目标为中心crop 255的图片,shift之后,现在是以目标周围某个点为中心,让目标不再是search region的中心,也就是说,正样本随机均匀分布,不是一帧或者一张图片,而是对于整个训练过程所有正样本在shift范围内随机均匀分布。


将shift设置为0时,网络只会关注图像中心的位置,对应到图中就是只有中心位置具有较大的响应值;而当我们将shift设置为16时,网络开始关注更多的图像范围,对应到图中就是响应的范围会扩大,颜色由深变浅;而当我们将shift设置为32时,网络会关注更大额图像范围,对应到图中就是响应的范围变得更大,颜色也更加多样化。
  作者发现随着shift的增大,这种现象能够逐渐得到缓解(如下图)。即通过均匀分布的采样方式让目标在中心点附近进行偏移,可以缓解网络因为破坏了严格平移不变性带来的影响。
在这里插入图片描述
2. 深层网络:
在这里插入图片描述
  现代化网络一般都是stride32,但跟踪为了定位的准确性,一般stride都比较小(Siamese系列一般都为8),作者把ResNet最后两个block的stride去掉了,同时增加了dilated convolution,一是为了增加感受野,二是为了能利用上预训练参数。如上图所示,改过之后,后面三个block的分辨率就一致了。 
3. 多层特征融合。
  由于深层网络中的层数比较多,网络的不同block块能够获取的特征也具有很大的差别,浅层网络特征更关注于提取一些颜色、边缘等信息,而深层网络特征则更关注于目标的语义特征,因此将深层网络的多层特征进行融合是一个值得去研究的工作。论文中选择了网络最后三个block的输出进行融合(由于之前对网络的改动,所以分辨率一致,融合时实现起来简单)。对于融合方式上我们并没有做过多的探究,而是直接做了线性加权。
在这里插入图片描述

4. Depthwise Cross Correlation
在这里插入图片描述
SiamFC、SiamRPN、SiamRPN++对比:
Cross Correlation:如上图(a)所示,用于SiamFC中,模版特征在搜索区域上按照滑窗的方式获取不同位置的响应值,最终获得一个一维的响应映射图。
Up-Channel Cross Correlation:如上图(b)所示,用于SiamRPN中,和Cross Correlation操作不同的是在做correlation操作之前多了两个卷积层,通道个数分别为256和256x2k,其中k表示每一个锚点上面的anchor个数。其中一个用来提升通道数,而另一个则保持不变。之后通过卷积的方式,得到最终的输出。通过控制升维的卷积来实现最终输出特征图的通道数。
Depthwise Cross Correlation:如上图(c)所示,和UpChannel一样,在做correlation操作以前,模版和搜索分支会分别通过一个卷积层,但并不需要进行维度提升,这里只是为了提供一个非Siamese的特征(SiamRPN中与SiamFC不同,比如回归分支,是非对称的,因为输出不是一个响应值;需要模版分支和搜索分支关注不同的内容)。在这之后,通过类似depthwise卷积的方法,逐通道计算correlation结果,这样的好处是可以得到一个通道数非1的输出,可以在后面添加一个普通的 1x1卷积就可以得到分类和回归的结果。整个过程类似于构造检测网络的头网络。
5. 在多层使用SiamRPN:
作者分别在conv3_3、conv4_6和conv5_3的分支上使用siamrpn网络,并将前面siamrpn的结果输入到后面的siamrpn网络中,该思路类似于cvpr2019值的C-RPN算法,通过多级级联具有两个优点:
(1)通过多个SiamRPN来选择出多样化的样本或者具有判别性的样本块,第一个siamrpn可以去除掉一些特别简单的样本块,而后面的网络进一步进行滤除,最终剩余一些hard negative sample,这样其实有利于提升网络的判别能力。
(2)由于使用了多级回归操作,因此可以获得一个更加准确的BB。

实验:

在这里插入图片描述
由上实验结果可以看出,实时获得了VOT2018上最先进的结果,显示了SiamRPN ++的有效性。 SiamRPN ++还在La-SOT和TrackingNet等大型数据集上实现了最先进的结果,显示了它的泛化性

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值