Attribute-based Progressive Fusion Network for RGBT Tracking论文研读笔记

目录

说明

一.论文作者介绍

二.内容摘要

三.介绍

四.相关工作

4.1Transformer Tracking

4.2Attribute-based Progressive Fusion Network

4.3Dual-stream Hierarchical Architecture

4.4Three-stage Training Algorithm

4.4.1训练阶段一

4.4.2训练阶段二

4.4.3训练阶段三

4.5APFNet在线跟踪

五.实验

5.1测评数据集和评价指标

5.2实验细节

5.3实验结果

5.4消融实验

六.结论


说明

  •  本篇博客是RGBT目标跟踪专题中的其中一篇:

Attribute-based Progressive Fusion Network for RGBT Tracking论文研读笔记

APFNet训练+测试复现过程记录

GTOT和RGBT234测评工具箱使用

一.论文作者介绍

  • 本篇论文出自安徽大学李成龙副教授课题组,AAAI2022。
  • 实验室研究方向包括跨模态跟踪、多模态行人重识别等。
  • 同年三篇AAAI2022论文地址:

Cross-Modal Object Tracking: Modality-Aware Representations and a Unified Benchmark

Interact, Embed, and EnlargE: Boosting Modality-Specific Representations for Multi-Modal Person Re-identification

Attribute-Based Progressive Fusion Network for RGBT Tracking

二.内容摘要

        RGBT目标跟踪通常面临着很多的挑战,比如目标快速运动(FM)、目标尺度的改变(SV)、遮挡(OCC)、光照变化(IV),热交叉(TC)等。(其中,前三个问题是RGB和热红外图像中都会存在的问题,而光照变化主要影响RGB图像,热交叉影响热红外图像)已有的研究工作都是研究复杂的融合的大模型,模型含有更多的参数,意味着需要更大的数据集,进而很难应用在现实世界当中。

        本篇文章将融合过程进行解耦,提出了基于属性的渐进融合网络APFNet,APFNet含有更少的参数,减少的对大数据集的依赖。我们设计了五个特定属性的融合分支去整合RGB和热红外图像的特征,五个特定属性即上面提到的目标快速运动、目标尺度的改变、遮挡、光照变化,热交叉。由于这一解耦操作,在训练时每一特定属性的分支之间是相互独立的,因为每个分支只需要关注特定属性下的特征融合,使得每一个分支的模型参数量较小,且仅需要已有数据集的子集去更新模型参数。之后,为了具有适应性地融合五个分支,我们基于SKNet设计了一个聚合融合模块。最后,设计了增强融合的Transformer,去加强聚合特征和特定模态的特征(RGB或Thermal)的融合。上述就是本文的主要的三个创新工作。

        目前,根据APFNet的性能可知,APFNet已是SOTA的方法。

三.介绍

        RGBT目标跟踪是使可见光和热红外图像相融合,二者优势互补,可以实现更好的目标跟踪性能,如热交叉对可见光图像影响很小,而光照、自然天气雨雪雾霾尘等对热红外图像影响较小。但是RGBT目标跟踪也面临着很多挑战,如目标快速运动(FM)、目标尺度的改变(SV)、遮挡(OCC)、光照变化(IV),热交叉(TC)等。

图3.1 三种融合模型

        如图3.1所示,图(a)是通用的融合模型,图(b)是基于属性的属性感知模型,该模型在某些属性下提取特征并融合,图(c)是本文提出的基于属性的渐进融合模型。

  • 对于属性融合模块,更多的属性可以加入到我们的模型当中,模型的可扩展性较好。
  • 对于基于属性的聚合融合模块,它可以自适应地聚合特定属性的特征。这里需要注意的是,属性的标签在训练时是可知的,但是在测试阶段是不可知的,也就是说测试时不知道应该激活那一个属性特征融合分支。我们的解决方案是基于SKNet设计的聚合模型,可以自适应地从所有的属性融合分支中选择有效的特征:通过预测每个属性特征融合分支通道的注意力之后加权去抑制未出现的属性分支的噪声。
  • 对于增强融合Transformer,不同于已有的Transformer,我们使用了三个编码器和两个解码器,三个编码器分别增强聚合特征和模态特征,两个解码器分别增强上述特征。

        我们使用双流分层结构,逐步地集成基于属性的渐进式融合网络如图3.2所示。训练使用三阶段训练方式,实验在三个基准数据集GTOT、RGBT234、LasHeR上完成。

 图3.2 APFNet网络结构

        本文的主要贡献如下:

  • 通过五个属性融合分支来实现对融合过程的解耦。每个分支含有很少的参数,减少了对大数据集的依赖
  • 设计了基于属性的自适应聚合模块
  • 设计了增强型聚合Transformer

四.相关工作

4.1Transformer Tracking

        Transformer的核心是注意力机制,专注于全局信息,最开始用于NLP机器翻译领域,近些年也应用在视觉跟踪领域,并取得较大突破。

4.2Attribute-based Progressive Fusion Network

        如图3.2所示,APFNet的主要组件是APF模块,它包括五个特定属性融合分支、基于属性的聚合模块、增强融合Transformer。使用VGG-M的前三层作为网络骨架,并将其扩展为双流结构。首先输入可见光图像和热红外图像,网络骨架提取特定模态的特征,五个属性融合分支同时进行融合,之后进行自适应聚合模块。接下来,将特定模态的特征和聚合特征发送到增强融合Transformer中,得到的输出用于下一个卷积层和APF模块。APFNet中总共含有三个这样的APF模块,在其之后使用三个全连接层用于提取分类和回归的全局特征。

  • 具体来说,五个属性融合分支同时进行融合时,先经过卷积核大小为5×5的卷积层,ReLU模块以及一个卷积核大小为4×4的卷积层,再之后使用SKNet自适应地从两个模态中选择通道特征。如图4.2.1所示。

 图4.2.1

  • 五个特定属性的分支经过聚合层的SKNet之后生成五个权重,利用这五个权重对五个特定属性分支特征进行加权计算,以获取更多的robust聚合特征。如图4.2.2所示。

 图4.2.2

  • 已有的使用单个编码器和解码器的工作无法实现自增强和交互增强。因此,我们将Transformer中的编码器和解码器分离开来,使用三个分离的编码器去自增强来自于聚合模块的特征和来自卷积层的两个特定模态的特征,并且使用两个分离的解码器渐进地融合这些编码器的特征,为了降低模型复杂度,在这些编码器和解码器当中使用单头注意力机制以及K、V矩阵共享权重。如图4.2.3所示。

 图4.2.3

  • 增强融合Transformer的具体细节如图4.2.4所示。设X^i_{agg}为第i层APF模块的聚合融合模块的输出特征,X^i_{vis}X^i_{inf}分别为第i层APF模块的卷积层提取出来的可见光模态和热红外模态的特征,注意这里i的取值为1,2,3,分别代表三个APF模块中的第几个。每一个输入特征在经过编码器时,先经过linear layer mapping被转换为三个向量:query,key,value,由q和k生成注意力权重矩阵,最后v通过残差加到原始特征向量中去。上面的三个输入特征,经过编码器自增强后输出X_{agg}^{e,i}X^{e,i}_{vis}X^{e,i}_{inf}。如下所示:

X^{e,i}_{vis} = Encoder(X^{i}_{vis}) \euro R^{C\times H\times W}

X^{e,i}_{inf} = Encoder(X^{i}_{inf}) \euro R^{C\times H\times W}

X^{e,i}_{agg} = Encoder(X^{i}_{agg}) \euro R^{C\times H\times W}

      其中,X^{i}_{vis},X^{i}_{inf},X^{i}_{agg} \euro R^{C\times H\times W},C、H、W分别是特征矩阵的通道数,高度和宽度。

        解码器是用来交互增强第i层APF模块中的聚合融合模块的输出特征X^{e,i}_{agg}和特定模态的特征X^{e,i}_{vis}X^{e,i}_{inf},得到的输出X^{e,i+1}_{vis}X^{e,i+1}_{inf}作为下一个APF模块的输入。如下所示:

X^{e,i+1}_{vis} = Decoder(X^{e,i}_{vis},X^{e,i}_{agg}) \euro R^{C\times H\times W}

X^{e,i+1}_{inf} = Decoder(X^{e,i}_{inf},X^{e,i}_{agg}) \euro R^{C\times H\times W}

 图4.2.4

4.3Dual-stream Hierarchical Architecture

      我们使用双流层次网络来分离地提取RGB图像和热红外图像的特征,网络骨架是VGG-M的前三层,卷积核的大小分别是7×7、5×5、3×3。三个卷积核的初始化参数来自于预训练权重imageNet-vid。为了更好地融合特征,网络骨架的每一层当中都加入了APF模块。最后,在最后一次卷积层之后有三个全连接层,最后一个全连接层FC6与MDNet类似,可以适应不同的域。

4.4Three-stage Training Algorithm

      三阶段训练算法提出的原因:

  • 如果直接使用所有的训练数据训练,那么所有属性数据的损失都会反向传播到特定属性的融合分支当中
  • 在测试阶段,属性的标注是未知的,就是说在跟踪过程中的某一帧中,不知道哪一个属性会出现
  • 希望增强出现的属性的特征,并且抑制没有出现的属性的特征

4.4.1训练阶段一

        第一阶段,单独地训练每个特定属性的融合分支。双流CNN网络通过imageNet-vid预训练权重参数进行初始化,该预训练模型包括三个卷积层和两个全连接层FC4和FC5。之后初始化特定属性融合分支的参数,并添加新的分类分支FC6。超参数设置如下:特定属性融合分支(除光照变化属性分支外)和FC6的学习率分别设置为0.001和0.0005,其中光照变化属性分支的训练数据比较小,所以该特定属性融合分支下的学习率为0.002。采用随机梯度下降(SGD)方法,动量为0.9,权重衰减设置为0.0005,周期是200。在这个阶段,只保存特定属性融合分支以消除FC层的影响。

4.4.2训练阶段二

        这一阶段,固定上一步训练的特定属性的融合分支,并且使用所有训练数据训练聚合融合模块,随机初始化聚合融合模块和FC6的参数,学习率分别设置为0.001和0.0005,训练期数为500。其他设置与第一阶段相同。在此阶段,我们保存聚合融合模块、FC4、FC5的参数。

4.4.3训练阶段三

        这一阶段,训练增强融合Transformer,以及微调其他模块的参数。随机初始化增强融合Transformer和FC6的参数,对于增强融合Transformer,学习率设置为0.001,对于FC6,学习率设置为0.0005,对于网络中的其他模块,学习率设置为0.0001。训练期数为1000。其他设置与第一阶段相同。在此阶段,我们保存参数在整个模型中。

4.5APFNet在线跟踪

        对于每个新的视频序列,随机初始化FC6,固定之前训练的模型参数并微调FC4、FC5、FC6.在第一帧中,根据给定的初始目标,采集500个正样本和5000个负样本进行微调全连接层,这里设置与gt框的iou大于0.7为正样本,小于0.5为负样本。并且在第一帧中采集1000个样本训练回归器。上一帧的跟踪结果采集256个候选样本用于当前帧的跟踪,从这256个候选框中选择前五个得分最高的跟踪框,并用它们的平均来作为当前帧的跟踪框。当跟踪框得分大于0时则跟踪成功,此时使用回归器使定位更加精确。正常情况下每10帧动态更新一次网络参数,但是当跟踪得分小于0时立马更新,更新的方式是使用20个正样本和100个负样本进行更新。

五.实验

5.1测评数据集和评价指标

        GTOT数据集包含50个不同场景和条件下的视频对,帧数大约15K,整个数据集按照属性的不同划分为7个子集。RGBT234数据集是由RGBT210数据集扩展而来,总共约234K帧的对齐视频对,以及注释了12个属性。LasHeR是全球最大的RGBT跟踪数据集,目前,它包含1224个对齐的视频序列,其中包括更多不同的属性注释,其中245个序列被单独划分为测试数据集,其余的作为训练数据集。

        评价指标使用PR、SR来作为一次评估(OPE)的量化评价指标。PR表示跟踪框和gt框之间距离小于阈值的帧占所有帧的百分比。在GTOT数据集中将阈值设置为5像素,在其他数据集中为20个像素。SR表示跟踪框和gt框之间覆盖面积大于阈值的帧占所有帧的百分比。

5.2实验细节

        为了测试GTOT数据集,使用从RGBT234中提取的相应的基于属性的训练数据,来训练特定属性融合分支。然后使用整个RGBT234数据集来训练基于属性的聚合SKNet和增强融合Transformer。对RGBT234和LasHeR数据集的测试,使用GTOT做训练集,训练过程同上。

5.3实验结果

5.4消融实验

六.结论

        在本文中,我们提出了一种基于属性的渐进式融合网络(APFNet),以充分利用多模型属性之间的信息。我们为每种属性类别设计了特定属性融合分支来学习不同的融合参数,并使用基于属性的聚合融合模块,用于聚合多种属性特征。最后,引入增强融合Transformer来增强聚集特征和特定模态特征。对三个基准数据集证明了我们的最先进的跟踪器。未来我们将在更多挑战下探索更多融合结构,以充分探索多模型之间的信息属性。

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值