这篇论文既提出了一个大规模的RGB-T追踪的数据集,也相应提出了一个Baseline,在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。
关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV
RGB-T追踪算法简介
通常RGB-T追踪器主要用了RGB追踪器相似的pipeline,然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为:图片融合、特征融合、决策融合三类。
- 【图片融合】:利用BackBone网络,以共享权重的方式学习可见光图片和热红外图片的图片特征,并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。
- 【特征融合】:大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合:1. 用一个模态作为辅助模态对另一个模态进行refine;2. 先直接把两个模态的特征拼接(通常按channel-wise),再通过深度网络学习一个新的两个模态交互后的特征。这种方法的优点是灵活性高,对图片的对齐要求不高。
- 【决策融合】:每个模态独立输出对目标的估计,以response map的形式,然后再融合这两个模态的决策,输出一个final score。
HMFT
这个模型就容纳了以上这三种融合方法。模型图如下,可以看到 HMFT 框架有两个分支:Discriminative bransh 分支和Complementary bransh 分支。主要由3个主要模块组成:CIF / DFF / ADF。
- Discriminative bransh 分支:
- Complementary bransh 分支 :
图像互补信息融合【CIF】
这个模块的作用是学习两个模态中目标相关的一致性信息。
- 模块的输入: I v I_v Iv和 I t I_t It分别表示RGB图片和Thermal图片。
- 蓝色部分是提取互补信息的网络【Comp. Backbone】,即ResNet50,共享权重,提取共同的特征。这里的 L d i v L_{div} Ldiv是KL-散度的Loss函数,作用是为了保持这两个模态的一致性,用KL散度约束特征的分布。所以在训练的时候,学习的目标函数就是使这两个backbone网络输出的特征尽可能相同。也相当于考虑了一致的信息。目标函数如下:
其中 P v i P_v^i Pvi和 P t i P_t^i Pti分别表示visible图片和thermal图片在ResNet50第 i i i层的特征。所以这是每层特征的KL散度之和求最小。 - 输出是按channel-wise拼接起来的特征 P a ∈ R 2 C ∗ H ∗ W P_a \in \mathbb{R}^{2C*H*W} Pa∈R2C∗H∗W,原本的特征维度为 P v / t ∈ R C ∗ H ∗ W P_{v/t} \in \mathbb{R}^{C*H*W} P