[Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking 阅读] arXiv.org
contributions
主要特点在于
- 表观信息和运动建模结合起来进行目标跟踪
- 可离线训练的模态融合权重学习模块(单一模态的跟踪再融合)
总结起来就是多模态融合与运动信息建模。
framework
跟踪过程主要包括:
- 相机运动补偿
- 单模态目标跟踪(表观模型)
- MFNet聚合模态跟踪结果
- 目标运动估计跟踪器
- 目标表观模型与运动估计的切换
- bbox refinement
motion cues包括目标运动预测和摄像机运动估计(补偿相机移动)。目标运动预测通过运动信息来预测目标的位置,并确定哪个信息对跟踪器切换更可靠。
基于表观信息的多模态融合网络(MFNet)
基础的单模态跟踪器是ECO,分别对RGB和T模态进行处理,产生两个相应的响应图: R R G B ∈ R M × N \mathbf{R}_{R G B} \in \mathbb{R}^{M \times N} RRGB∈RM×N和 R T ∈ R M × N \mathbf{R}_{T} \in \mathbb{R}^{M \times N} RT∈RM×N,搜索区域尺寸M x N。融合过程是线性的:
R F = W F ⊙ R R G B + ( 1 − W F ) ⊙ R T \mathbf{R}_{F}=\mathbf{W}_{F} \odot \mathbf{R}_{R G B}+\left(\mathbf{1}-\mathbf{W}_{F}\right) \odot \mathbf{R}_{T} RF=WF⊙RRGB+(1−WF)⊙RT
其中 W F ∈ R M × N \mathbf{W}_{F} \in \mathbb{R}^{M \times N} WF∈RM×N表示二维元素权重(0~1),由完全离线训练的MFNet产生;最后响应图的峰值代表预测的目标位置。
MFNet由两个共享特征提取的子网络组成:global and local MFNet。特征提取的骨干网络是在ImageNet上预训练的VGG-M,图像Pattch P R G B \mathbf{P}_{R G B} PRGB、 P T \mathbf{P}_{T} PT经过VGG-M后得到特征图 F R G B \mathbf{F}_{R G B} FRGB、 F T \mathbf{F}_{T} FT(conv-5,然后concat起来输入到两个子网路中:global MFNet输出全局权重 w G ∈ R 1 w_{\mathrm{G}} \in \mathbb{R}^{1} wG∈R1,描述模态权重;local MFNet输出局部权重(pixel-level) W L ∈ R M × N \mathbf{W}_{L} \in \mathbb{R}^{M \times N} WL∈RM×N,描述模态内部的局部信息。两个权重都用sigmoid将数值限制在0~1,总的权重为
W F = w G ∗ W L \mathbf{W}_{F}=w_{G} * \mathbf{W}_{L} WF=wG∗WL
结合上述的响应图加权融合公式,这里的权重应该能理解为对两个模态互补的加权系数,同时考虑模态间、模态内可靠性。下图是加权过程的示意, R G \mathbf{R}_{G} RG是只包含全局权重的融合, R F \mathbf{R}_{F} RF则是全局+局部的融合。下面的曲线表示了跟踪过程中 w G w_{G} wG的动态变化过程。
Global MFNet:该子模块包含两个卷积层:3×3×256 、9×9×1(ReLU、LRN),从而直接得到标量权值。
Local MFNet:类似于二维空间注意力机制,Local MFNet目的是得到一个二维权重分布。结构上是3 × 3 × 256 和3 × 3 × 1 的deconv,外加双线性插值上采样至响应图分辨率。上面用单独全局权重融合结果和带有局部权重的响应图进行对比,就是为了说明local MFNet的权重对模态内背景或干扰的抑制作用(更高的PSR)。
损失函数形式比较简单: L = ∥ R F − Y ∥ 2 2 \mathcal{L}=\left\|\mathbf{R}_{F}-\mathbf{Y}\right\|_{2}^{2} L=∥R