SiamIRCA学习笔记

一、简介

为了解决跟踪器受到难以学习与对象一致的特征表示的限制的问题,本文提出了一种新的连体隐式区域建议网络+复合注意力+无锚的视觉跟踪。
隐式区域建议(IRP)模块的设计结合了一种新的像素级相关方法。该模块可以聚合与区域建议网络中的预定义锚框相似的不同区域的特征信息。为此,然后可以通过来自不同区域的特征的线性融合来获得自适应特征感受野。
提出了一个包含“通道+非局部注意”的复合注意模块,以辅助IRP模块对物体的尺度和形状进行更好的感知。通道注意力用于挖掘对象的判别信息以处理模板的背景杂波,而非局部注意力被训练以聚合上下文信息以学习对象的语义范围。
调查表明,强大的跟踪器需要遵循两个标准:中心对齐区域一致性。首先,区域提议的中心需要与特征图节点对齐。其次,特征图节点的感受域和语义范围也需要与对应对象的尺度和形状一致。因此,设计了更坚固和整洁的无锚跟踪器。无锚方法自然地将特征节点与原始地图上的固定网格对齐。另一方面,迫切需要克服的挑战是实现特征节点的感受域和对象的语义范围之间的有效一致性。
基于这个动机,我们试图设计一个更有效的模块来自适应地调整特征节点的感受野,以减轻上述的挑战。根据这种直觉,我们发现两个困难:(1)朴素的CNN(卷积神经网络)只能对正方形进行建模区域信息,其可能在对象的冗余空间上下文周围盲目学习。(2)深度相关方法学习整个对象的特征表示,这受限于网络灵活地聚合来自各种感受野的信息。Ocean设计了一个对象感知模块,通过可变形卷积显式对齐特征,并通过特征组合模块在相关过程中聚合多纵横比信息。可变形卷积辅助实现了上述一致性标准,但它导致了非常大的计算负担和网络训练困难。
综上所述,我们提出了一个具有复合注意力的Siamese隐式区域建议网络(SiamIRCA)。首先,设计了隐式区域建议模块,分两步自适应调整感受野:特征提取和特征融合。前者接收来自不同区域的信息,后者隐式地嵌入不同的区域特征。此外,受逐像素相关方法[20]的启发,通过学习局部特征表示来解决逐深度相关的限制。到目前为止,我们已经克服了上面提到的两个困难。其次,提出了一个复合注意模块,以协助IRP模块捕获对象的特征表示。该模块包括通道注意和非局部注意。通道注意力探索模板的关键节点,其对于跟踪是有区别的。非局部注意编码长距离依赖性以感知对象的形状和尺度。通过这种方式,我们提出了一个简单而有效的框架,以促进特征节点的感受野和对象的语义范围之间的一致性。图1示出了所提出的方法与其他最先进的方法之间的比较。所提出的跟踪器是强大的跟踪过程中的复杂挑战,它准确地预测对象的边界框。图2示出了所提出的方法的总体框架。我们可以观察到,所提出的SiamIRCA由精细特征聚合模块(FFAM)、复合注意模块(CAM)、IRP模块和无锚点预测模块组成。本研究报告的主要贡献可归纳如下:
1.设计了一个隐式区域建议模块,将区域表示隐式地嵌入到像素级相关特征中,使特征节点的感受野尽可能地适合对象的形状。
2.提出了一种复合注意模块,通过关联特征同时学习模板的判别信息和上下文信息,增强了目标的特征表征,从而辅助IRP模块。

二.注意力机制

注意力机制 在深度学习领域得到了广泛的应用。SA-Siam [37]提出了一种由模板分支中的最大池化层和多层感知器组成的信道注意机制,该机制使网络专注于模板特征中具有歧视性信息的信道。RASNet [38]在SiamFC的基础上,引入了剩余注意力、一般注意力和通道注意力,解决了网络过拟合问题,从而提高了模型的泛化能力。SiamMan [39]被提出来描述一个多尺度可学习的注意力模块,并指导网络分配权重以关联三个不同深度的特征。此外,提出了CGACD方法[15],以通过逐像素相关方法对角点的空间位置进行编码。CGACD方法的主要贡献是空间和通道注意机制,其增强了特征中的角点的位置信息和分类信息,从而导致基于角点检测的高效跟踪。SiamACM [40]说明了启发式匹配算子的局限性,并提出了非对称卷积(ACM)来学习特征匹配。另一方面,TransT [41]和SiamGAT [42]都通过图形注意力自适应地学习模板搜索间亲和力,避免模板特征的区域裁剪。SiamAttn [43]引入了自我注意机制,以聚合来自模板和搜索分支的上下文信息。此外,设计了一个交叉注意模块来隐式地更新模板。

在本节中,我们将描述具有复合注意力的Siamese隐式区域建议网络(SiamIRCA)。SiamIRCA主要由四个子模块组成:精细特征聚合模块(FFAM)、复合注意力模块(包括通道注意力和非局部注意力)、隐式区域提议模块(IRP)和无锚点模块
**创新点:逐像素相关+注意力模块+IRP+无锚框设计+损失函数的设计

三、结构

图2显示了SiamIRCA从共享的预训练骨干开始,并通过CAM聚合模板补丁和搜索补丁之间的像素级相似性信息。CAM参考模板块的关键局部信息和搜索块的上下文背景信息两者来优化相关性特征。此外,IRP模块集成了不同纵横比的相似性信息,这隐含地将锚框集成到相关特征中。最后,无锚模块使跟踪器能够预测一致的分类分数和偏移。
在这里插入图片描述

3.1精细特征聚合模块

逐像素相关的方法来获取图像的相关特征。
融合ResNet三四五层的特征:更高特征层具有更好的语义表示。
在这里插入图片描述

3.2复合注意力模块

CAM包含通道注意力非局部注意力的级联,其在两个方面编码相关性特征:模板特征的局部关键信息和搜索特征的全局上下文信息。图3示出了两个注意力层的框架。在下文中,讨论CAM的主要部分。
在这里插入图片描述通道注意力:
首先,通道上的整个特征图通过全局平均池化层被挤压成全局特征。
其次,压缩的功能被送入一个两层多层感知器(MLP),以减少计算负荷,同时提高模型的泛化能力。然后,应用适当的Sigmoid函数以将学习的信道权重映射到0-1间隔。
在这里插入图片描述

这里,L1 和L2是两个不同的全连通层,σ表示Sigmoid激活函数。此外,Ac是信道的权向量。我们通过以下表达式对特征重新加权:
点是广播元素乘法在这里插入图片描述
非局部注意力:
合理地捕获背景信息可以帮助模型更好地预测对象的边界框。因此在通道注意力之后引入非本地模块以聚合全局上下文信息。

3.3隐式区域建议模块(IRP)

由于跟踪过程中物体长宽比的不确定性,通过单一形状的卷积匹配完整信息是一个巨大的挑战。为了尽可能地匹配目标,重要的是设计一个模块来聚合具有不同感受野的卷积分支。在图4中,深度相关操作使用固定的正方形模板特征作为卷积核,这使得网络不灵活地聚合来自不同感受野的信息。如在III-B.1中所分析的,通过矩形注释和切片获得的模板特征将不可避免地引入背景噪声。因此,更局部的逐像素相关操作是隐式编码锚框信息的必要先决条件。图5示出了三种不同内核大小的信息(即,7× 7,13× 7,7×13)进行聚合,以支持无锚模块并精确预测边界框。IRP模块可以在数学上表示如下:
在这里插入图片描述
其中 {(7,7),(13,7),(7,13)}表示不同纵横比的卷积分支。αa,b是控制每个卷积分支权重的超参数。为了减少计算负担,将三个较小的卷积核级联,以实现一个较大的卷积核的感受野
在这里插入图片描述

3.4无锚模块

无锚点方法通过特征映射直接对搜索区域中固定位置上的边界框进行分类和回归,从而避免了复杂的超参数设计。
包含两个分支:分类分支+回归分支

四、损失函数

分类:
在这里插入图片描述
其中Pcls和C 分别是分类分支的预测结果和标记。由于样本标签的分配显著影响跟踪网络的训练结果,因此在本研究中应用了一种新的分配方法。椭圆标签分配方法定义如下:
在这里插入图片描述
回归:
在这里插入图片描述
总损失:
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值