SiamRPN++: 基于深度网络的孪生视觉跟踪的进化

📝论文下载地址

  SiamRPN++论文地址
  SiamRPN++论文百度网盘下载地址提取码:1k05
  SiamRPN++论文翻译(水印)百度网盘下载地址提取码:tr06
  SiamRPN++论文翻译(无水印PDF+Word)下载地址

🔨代码下载地址

  [GitHub]
  [百度网盘]提取码:5meh
  [预训练权重百度网盘下载地址]提取码:jnur

👨‍🎓论文作者

Bo Li、Wei Wu、Qiang Wang、Fangyi Zhang、Junliang Xing、Junjie Yan
SenseTime Research、SenseTime Research、NLPR,CASIA、VIPL,ICT、NLPR,CASIA、SenseTime Research

📦模型讲解

[模型结构]

  SiamRPN++网络结构如下图所示,虚线的两边都是网络结构图,虚线左侧是特征提取网络结构,右侧是RPN结构图。其实SiamRPN++的网络结构与SiamRPN网络结构十分相似,具体的工作过程不再细讲,而SiamRPN++就是在SiamRPN的基础上加入许多的创新点,这些创新点会在之后进行讲解。

[模型创新]

[针对平移不变性的改进]
  严格的平移不变性只存在于无填充网络中,如AlexNet。以前基于孪生的网络设计为浅层网络,以满足这一限制。然而,如果所使用的网络被ResNet或MobileNet等现代网络所取代,填充将不可避免地使网络变得更深,从而破坏了严格的平移不变性限制,不能保证物体最后的heatmap集中于中心。
  要想使用更深的特征提取网络,就要避免对目标产生强烈的中心偏移,我们采用空间感知采样策略训练了具有ResNet-50骨干网的SiamRPN。如下图展示了,三种平移范围(0像素,±16像素,±32像素)情况下,网络输出heatmap的结果。

  如下图所示,在VOT2018上,零像素平移的性能降低到0.14,适当的移位(±64像素)对于训练深度孪生跟踪器至关重要。

[ResNet驱动的孪生追踪]
  作者的实验主要集中在ResNet-50上。原始ResNet具有32像素的尺度变化,不适合于稠密孪生网络的预测。如下图所示,通过修改conv4和conv5块以获得单位空间尺度变化,将最后两个块的尺度变化从16和32减少到8倍的尺度变化,并通过扩大卷积增加其感受域。在每个块输出端附加一个额外的1×1卷积层,以将信道减少到256。

  由于所有层的填充都保持不变,模板特征的空间大小增加到15,这给相关模块带来了沉重的计算负担。因此,作者裁剪中心7×7区域作为模板特征,其中每个特征单元仍然可以捕获整个目标区域。

[分层聚合]
  在以前的工作中,仅使用像AlexNet这样的浅层网络,多层特性不能提供非常不同的作用。然而,考虑到感受野的变化,ResNet中的不同层更有意义。浅层的特征主要集中在低层次的信息上,如颜色、形状等,对于定位是必不可少的,而缺乏语义信息;深层的特征具有丰富的语义信息,在某些挑战场景(如运动模糊、形变等)中是有益的。使用这种丰富的层次信息有助于跟踪。

  从最后三个残差块中提取的多层特征,以进行分层聚合。将这些输出中分类featuremap称为 S 3 S_3 S3 S 4 S_4 S4 S 5 S_5 S5 ,回归featuremap称为 B 3 B_3 B3 B 4 B_4 B4 B 5 B_5 B5 。如图3所示,conv3、conv4、conv5的输出分别输入三个SiamRPN模块。由于三个RPN模块的输出尺寸具有相同的空间分辨率,因此直接对RPN输出采用加权和。 S a l l = ∑ l = 3 5 α l ∗ S l , B a l l = ∑ l = 3 5 β l ∗ B l S_{a l l}=\sum_{l=3}^{5} \alpha_{l} * S_{l}, \quad B_{a l l}=\sum_{l=3}^{5} \beta_{l} * B_{l} Sall=l=35αlSl,Ball=l=35βlBl其中 S a l l S_{all} Sall为聚合后的分类featuremap, B a l l B_{all} Ball为聚合后的回归featuremap, α \alpha α β \beta β分别是对应的权重。

[深层互相关改进]
  互相关模块是嵌入两个分支信息的核心操作。SiamFC利用互相关层获得用于目标定位的单信道响应图。在SiamRPN中,通过添加一个巨大的卷积层来缩放信道,扩展了互相关以嵌入更高级别的信息,例如anchors。重上行信道模块使得参数分布严重不平衡,使得SiamRPN训练优化困难。
  作者提出了一个轻量级的互相关层,称为深度互相关,以实现有效的信息关联。深度互相关层包含的参数比SiamRPN中使用的互相关层少10倍,性能与之相当。
  如下图所示,图中(a)互相关层预测方法是取自SiamFC中目标模板和搜索图像之间的单通道相似性映射。模板图像和搜索图像在经过网络后输出通道数相同的featuremap,两者逐通道相互卷积,最后取平均值。图中(b)上行信道互相关层,取自SiamRPN,模板图像和搜索图像经过特征提取网络生成featuremap后,输入RPN网络,分类分支和回归分支分别经过非权值共享的卷积层后在相互卷积,参数量十分巨大。图中(c)深度互相关层预测模板和搜索图像之间的多通道相关性特征,取自SiamRPN++,模板图像经过卷积层后并不像SiamRPN那样将通道数增加2k倍(每个grid生成k个anchors),而是保持不变,同时搜索图像也与模板图像保持一致,两者逐通道相互卷积,之后接一个1×1的卷积层,再改变通道数,这样在保持精度的同时减少了参数量。

[通道数的研究]
  下图说明了一个有趣的现象。同一类别的对象在同一信道(148信道的car、222信道的person和226信道的face)上具有高响应,而其余信道的响应被抑制。这一特性可以理解为,由深度互相关产生的信道方向特征几乎是正交的,每个信道代表一些语义信息。我们还分析了当使用上通道互相关时的热图,而响应图的解释性较差。

  上图为conv4中的深度相关输出通道。conv4共有256个通道,但只有少数信道在跟踪过程中有较高的响应。因此,选择第148、222、226个通道作为演示,它们是图中的第2、3、4行。第一行包含来自OTB数据集的六个相应的搜索区域。不同的通道表示不同的语义,第148通道对汽车的响应较高,而对人和脸的响应较低。第222频道和第226频道分别对人和脸有很高的响应。

[损失函数]

  作者采用的损失于SiamRPN相同,此处不过多赘述。详情请阅读:
  SiamRPN:利用区域建议孪生网络进行视频跟踪

[训练过程]

训练属性参数取值
梯度下降SGD
迭代次数20
批量大小128
学习率0.001-0.0005
框架Pytorch
配置8×NVIDIA Titan Xp

[结果分析]

[OTB2015]
  作者将OTB2015上的SiamRPN ++跟踪器与最先进的跟踪器进行了比较。下图显示了的SiamRPN ++跟踪器在重叠成功率方面的领先结果。与最近的DaSiamRPN 相比,SiamRPN ++在重叠方面提高了3.8%,在精度方面提高了3.4%。这是孪生跟踪器首次在OTB2015数据集上获得与最新跟踪器相当的性能。

[VOT2018]
  SiamRPN ++方法在EAO、A和AO标准上达到了最高的性能。特别是,SiamRPN ++跟踪器优于所有现有的跟踪器,包括VOT2018挑战赛冠军。与VOT2018挑战赛中的最佳跟踪器(LADCF)相比,该方法的性能提高了2.5%。此外,我们的跟踪器比挑战优胜者(MFT)有了巨大改进,准确率提高了9.5%。与基线跟踪器DaSiamRPN相比,在鲁棒性上获得了10.3%的显著提高,这是基于孪生网络的跟踪器对抗相关滤波器方法的常见弱点。尽管如此,由于缺乏对模板的自适应性,鲁棒性仍然与依赖于在线更新的最新相关滤波方法存在差距。

  在上图中,可视化VOT2018上相对于FPS的EAO。速度是在一台装有NVIDIA Titan Xp GPU的机器上评估的,其他结果由VOT2018官方结果提供。从图中可以看出,SiamRPN ++在以实时速度(35 FPS)运行的同时获得了最佳性能。值得注意的是,两个变种实现了与SiamRPN ++几乎相同的精度,同时运行速度超过70FPS。

[VOT2018-LT]
  在最新的VOT2018挑战赛中,新引入了一个长时数据。它由35个长时序列组成,在这些序列中,目标可能离开视野或长时间完全被遮挡。性能指标包括精确性、召回率和综合F指数。所有这些指标与VOT2018-LT上最先进的跟踪器进行比较。
  如下图所示,在为SiamRPN++跟踪器配备了长时策略之后,SiamRPN ++相比DaSiam LT获得2.2%的增益,并且在F指数中的性能比最好的跟踪器高1.9%。由ResNet提取的强大特征提取能力使TP和TR比基线DaSiamRPN绝对提高了2%。同时,SiamRPN ++的长期版本仍然能够以21 FPS的速度运行,这比VOT2018-LT的获胜者MBMD快了近8倍。

[UAV123]
  UAV123数据集包含123个序列,平均序列长度915帧。除了ECO、ECO-HC、DaSiamRPN和SiamRPN的最新跟踪器外,还对它们进行了比较。下图展示出了跟踪器的精度和成功图。具体来说,SiamRPN++的成功分数为0.613,比DaSiamRPN(0.586)和ECO(0.525)高出很多。

[LaSOT]
  为了在更大、更具挑战性的数据集上进一步验证所提出的框架,作者在LaSOT上进行了实验。LaSOT数据集提供了一个大规模、高质量的密集注释,总共有1400个视频,测试集中有280个视频。下图报告了SiamRPN ++跟踪器在LaSOT测试集上的总体性能。SiamRPN ++模型达到最先进的AUC分数49.6%。具体来说,SiamRPN ++比MDNet在标准化距离精度和AUC都有提高,分别为23.7%和24.9%,MDNet是本文中提出的最好的跟踪器。

[TrackingNet]
  TrackingNet提供了大量数据来评估追踪器。作者用511个视频对SiamRPN++的测试集进行了评估,使用三个度量成功(AUC)、精度(P)和标准化精度(Pnorm)进行评估。下表展示了与AUC得分最高的跟踪器的比较结果,显示SiamRPN++在所有三个指标上都取得了最好的结果。具体而言,SiamRPN ++的AUC得分为73.3%,精度为69.4%,Pnorm得分为80.0%,分别以63.8%、59.1%和73.4%的AUC得分9.5%、10.3%和6.6%的成绩优于第二好的追踪者DaSiamRPN。

[网络优化对比]
  特征抽取器的选择至关重要,因为参数的数量和层的类型直接影响到跟踪器的内存、速度和性能。作者比较了不同的视觉跟踪网络结构。图6示出了使用AlexNet, ResNet-18, ResNet-34, ResNet-50和MobileNet-v2作为骨干网络的性能。我们通过AUC来展示OTB2015上的成功曲线相对于ImageNet上TOP1准确度的表现。

  上表中,L3、 L4、 L5分别表示conv3、conv4、conv5。finetune表示主干是否进行微调。up/dw是指上行信道相关和下行信道相关,分别对应[深层互相关改进]中的( b )和( c )两种互相关层。
  另外,SiamRPN++采用了分层特征聚合后,在VOT 和OTB上的增益达到3.1%到1.3%;采用了新的互相关层后,在VOT2018上提高了2.3%,在OTB2015上提高了0.8%。

🚪传送门

  视频跟踪
  视频跟踪数据集指标分析
  SiamFC:利用全卷积孪生网络进行视频跟踪
  SiamRPN:利用区域建议孪生网络进行视频跟踪
  DaSiamRPN:用于视觉跟踪的干扰意识的孪生网络
  SiamRPN++: 基于深度网络的孪生视觉跟踪的进化
  SiamMask: 快速在线目标跟踪与分割的统一方法

  • 2
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值