Correlation-Aware Deep Tracking阅读笔记

	鲁棒性和分辨力是视觉目标跟踪的两个基本要求。在大多数跟踪范例中,我们发现,由流行的连体类网络提取的特征不能完全区分地对被跟踪目标和干扰目标建模,从而妨碍它们同时满足这两个要求。虽然大多数方法侧重于设计鲁棒的相关操作,但受自我/交叉注意方案的启发,我们**提出了一种新的目标相关特征网络**。与类似暹罗的特征提取相比,**我们的网络在特征网络的多个层次中深深嵌入了图像间的特征相关性。通过多层广泛匹配两幅图像的特征,它能够抑制非目标特征,从而实现实例变化特征提取。**搜索图像的输出特征可以直接用于预测目标位置,而无需额外的相关步骤。此外,我**们的模型可以灵活地对大量未成对图像进行预训练,从而比现有方法具有更快的收敛速度。**大量实验表明,我们的方法在实时运行时达到了最先进的结果。我们的功能网络还可以无缝地应用于现有的跟踪管道,以提高跟踪性能。代码将可用

导言
视觉目标跟踪(VOT)是计算机视觉中一个长期存在的话题。VOT中有两个基本但相互竞争的目标:一方面,它需要识别经历巨大外观变化的目标;另一方面,它需要过滤掉背景中可能与目标非常相似的干扰物。
大多数基于外表的方法都从两个角度来应对这一挑战:第一个是学习更贵的基于类连体抽取网络的特征嵌入空间;第二种方法是开发一种更鲁棒的相关运算,例如连体裁剪[23,60]、在线滤波器学习[3,18]和基于变压器的融合[5,52]。由于现代backbone[17,35]成为深层次时代的主流选择,大多数跟踪器致力于相关操作,希望根据目标和干扰物的特征来区分它们。尽管取得了巨大的成功,但这些追踪范例中很少有人注意到这两个相互竞争的目标可能会使特征网络陷入目标-干扰者困境,给相关步骤带来很多困难。其根本原因有三个方面:1)连体编码过程不知道模板和搜索图像,这削弱了学习嵌入的实例级区分。2) 主干网没有明确的建模来学习分隔两个竞争目标的决策边界,从而形成次优嵌入空间。3) 每个训练视频只注释一个对象,而在推理过程中可以跟踪包括干扰物在内的任意对象。这个差距进一步扩大了2)。我们的主要见解是,特征提取应该具有动态的实例不同的行为,为VOT生成“适当的”嵌入,以缓解困境。更详细地说,它需要在视频的所有帧中为同一对象生成一致的特征,尽管存在变化;另一方面,它需要为目标和具有相似外观的干扰物生成对比特征。
在这里插入图片描述

	为此,我们在注意方案的基础上提出了一种新的动态特征网络[39]。如图2(a2)所示,我们的单支路变压器(SBT)网络允许两幅图像的特征在特征提取阶段进行深度交互。直观地说,交叉注意权值逐层过滤目标无关特征,而自我注意权值丰富了特征表示,以便更好地匹配。因此,特征提取过程依赖于目标,对于图像对来说是不对称的,这使得网络能够实现双赢:它将目标与类似的干扰源区分开来,同时保留不同目标之间的相干特征。图2(d2)验证了SBT特征的有效性。目标的特征(绿色)与背景(粉色)和干扰物(蓝色)越来越分离,而暹罗语提取的搜索特征完全不知道目标。 

在这里插入图片描述

	SBT的总体框架如图3所示。它在提取或相关(EoC)块上有三个模型阶段。补丁嵌入为模板和搜索图像生成嵌入。然后将嵌入件送入堆叠的EoC块。EoC有两种变体,即EoC SA和EoC CA,它们分别使用自我注意(SA)和交叉注意(CA)作为其核心算子。EoC SA块融合同一图像内的特征,而EoC CA块则在图像间混合特征。将搜索图像的输出特征直接输入预测头,得到空间分数图和大小嵌入图。我们的关键技术创新是为模板和搜索图像对处理引入一个单一流,通过基于同质注意的块联合提取或关联。因此,SBT可以在大量未配对图像(如ImageNet[34])上进行预训练,从而在跟踪时快速收敛
	我们进行了大量的实验来证明这一点 比较不同的SBT网络设计。基于这些见解,我们总结了一些一般原则。我们的方法实现了卓越的性能,并改进了基于暹罗、DCF和变压器的跟踪器,如图10所示。这项工作的主要贡献如下: 
	我们提出了一种新的跟踪框架,该框架允许搜索和模板图像的特征进行深度融合以进行跟踪。它进一步改进了现有的流行跟踪管道。尽我们所能,我们是第一个为VOT提出专门的目标相关功能网络的人我们从实验和理论两方面对SBT跟踪进行了系统的研究,并总结了以下工作的一般原则。 
	论文的其余部分组织如下。我们在第二节讨论相关工作。SBT框架见第3节。然后,我们在第4、5节对SBT进行了实证研究和理论分析。最后,我们提供了大量的实验结果在第6节。总结论文第7节.

相关工作
视觉跟踪。近年来,基于暹罗网络[2]的跟踪器引起了极大关注。通过引入强大的主干网[22,60]和精心设计的预测网络[16,23,51],暹罗跟踪器获得了卓越的性能。然而,具有浅相关结构的离线目标匹配[2]缺乏对干扰源的辨别能力。然后,专门的修改出现了,包括注意机制[15,43,56]、在线模块[61,63]、级联框架[7,14,41]、更新机制[57]和目标感知模型微调[24,40]。尽管有了这些改进,但其中大多数都给暹罗的追踪管道带来了很大的复杂性。相反,我们的目标相关功能网络可以无缝升级原始网络。此外,我们的特征网络通过去除暹罗跟踪器中分离的相关步骤,形成了一种新颖且概念简单的跟踪管道。
判别相关滤波器(DCF)跟踪器[18]通过求解最小二乘法学习目标模型基于在线回归。 它通过快速梯度算法[11]、端到端学习[3,62]和基于CNN的大小估计[1,54]进一步改进。然而,DCF对复杂的手工优化以及功能的质量非常敏感,在具有挑战性的场景下,这些功能可能缺乏实例级别的区分。为了改善这一点,我们的区分性目标相关功能可以大大减轻在线DCF的负担。
最近兴起的基于变压器的方法[5,42,48,52,55]利用变压器的远程建模来有效地融合特征。因此,他们无需在线学习就可以进行稳健的跟踪。然而,主要为语言处理领域设计的Transformer[39]在训练期间很难针对视觉任务进行正确初始化,导致了巨大的成本。我们没有使用Transformer作为融合模块[5,52,54],而是利用注意力方案动态生成定制特征,从而在目标和搜索区域之间建立层次化的细粒度对应关系。
视觉骨干。现代CNN[17,35]通常作为视觉任务的主干网络。最近,视觉转换器(ViT)[12,27,45]在CNN原则的指导下,作为视觉中枢取得了令人印象深刻的成果。更深入、更有效的体系结构是强大主干网的两大支柱,它们推动了众多下游任务。类似地,VOT中强大的主干带来的改进主要归功于更具表现力的特征嵌入[22,60],这与其他任务(如目标检测)有细微的区别。然而,VOT的动态特性实际上需要对模板和搜索图像进行非对称编码,这在以前的大多数工作中都没有得到足够的重视。考虑到这一点,我们为VOT提出了一个动态的实例变化主干,而不仅仅是追求表达性嵌入。
架构
本节介绍单支路变压器(SBT)的总体架构(图3)及其主要构建块(EoC块)。然后,在下一节中,我们将评估该体系结构的一些实例,然后总结有利的设计原则。
Patch Embedding
我们的模型以两幅图像作为输入,包括一幅模板图像z∈ R3×Hz×Wz和更大的搜索图像x∈ R3×Hx×Wx。通常,z以目标对象为中心,而x代表包含目标的后续帧中的较大区域。在贴片嵌入(Pa.E)阶段,两幅图像被馈送到一个卷积层Ф0p,内核大小为7×7,步长为4,然后是一个层规范化(LN)层。它将图像分别嵌入到f0z和f0x的特征映射中。f0z,f0x=LN(φ0p(z)),LN(φ0p(x)),(1)式中f0z∈ RC0×Hz4×Wz4,f0x∈ RC0×Hx4×Wx4和C0是通道数。
Extract-or-Correlation Block
EoC模块可以同时实现自我注意(SA)和交叉注意(CA),是主要的构建模块。直觉上,它们分别从相同和不同的图像中逐渐融合特征。众所周知,在所有令牌中全局计算注意力会导致二次复杂性[27]。为了解决这个问题,有许多工作试图降低计算成本。我们为不同的有效注意方法提供了一个通用公式。在这个公式的基础上,我们描述了我们的SA和CA操作。让χ(.)表示将特征映射重塑/排列为所需形式的函数。功能因不同的方法而异。我们计算q,k,v特征为:qi=[χq(fi)]Tωq,i∈ {z,x},ki=[χk(fi)]Tωk,i∈ {z,x},vi=[χv(fi)]Tωv,i∈ {z,x},(2)其中{ωq,ωk,ωv}表示线性投影。Vanilla Global attention(VG)[12]计算所有令牌之间的注意。所以{χq,χk,χv}代表身份映射。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值