JMMAC rgbt tracking 文章阅读

最新推荐文章于 2024-06-18 09:34:59 发布

木木JL

最新推荐文章于 2024-06-18 09:34:59 发布

阅读量1k

点赞数 1

文章标签：目标跟踪计算机视觉

本文链接：https://blog.csdn.net/qq_35078996/article/details/114270752

版权

本文介绍了JMMAC RGB-T跟踪方法，它通过结合表观信息和运动建模进行目标跟踪。MFNet用于模态融合权重的学习，包括全局和局部权重。目标运动预测和相机运动估计用于补偿运动影响。实验表明，该方法在GTOT和RGBT-234数据集上表现出色，证明了其在多模态融合和运动信息建模方面的有效性。

摘要由CSDN通过智能技术生成

[Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking 阅读] arXiv.org

contributions

主要特点在于

表观信息和运动建模结合起来进行目标跟踪
可离线训练的模态融合权重学习模块（单一模态的跟踪再融合）

总结起来就是多模态融合与运动信息建模。

framework

跟踪过程主要包括：

相机运动补偿
单模态目标跟踪（表观模型）
MFNet聚合模态跟踪结果
目标运动估计跟踪器
目标表观模型与运动估计的切换
bbox refinement

在这里插入图片描述

motion cues包括目标运动预测和摄像机运动估计（补偿相机移动）。目标运动预测通过运动信息来预测目标的位置，并确定哪个信息对跟踪器切换更可靠。

基于表观信息的多模态融合网络（MFNet）

基础的单模态跟踪器是ECO，分别对RGB和T模态进行处理，产生两个相应的响应图： $\mathbf{R}_{R G B} \in \mathbb{R}^{M \times N}$ 和 $\mathbf{R}_{T} \in \mathbb{R}^{M \times N}$ ，搜索区域尺寸M x N。融合过程是线性的：

$\mathbf{R}_{F}=\mathbf{W}_{F} \odot \mathbf{R}_{R G B}+\left(\mathbf{1}-\mathbf{W}_{F}\right) \odot \mathbf{R}_{T}$

其中 $\mathbf{W}_{F} \in \mathbb{R}^{M \times N}$ 表示二维元素权重（0~1），由完全离线训练的MFNet产生；最后响应图的峰值代表预测的目标位置。
MFNet由两个共享特征提取的子网络组成：global and local MFNet。特征提取的骨干网络是在ImageNet上预训练的VGG-M，图像Pattch $\mathbf{P}_{R G B}$ 、 $\mathbf{P}_{T}$ 经过VGG-M后得到特征图 $\mathbf{F}_{R G B}$ 、 $\mathbf{F}_{T}$ （conv-5，然后concat起来输入到两个子网路中：global MFNet输出全局权重 $w_{\mathrm{G}} \in \mathbb{R}^{1}$ ，描述模态权重；local MFNet输出局部权重（pixel-level） $\mathbf{W}_{L} \in \mathbb{R}^{M \times N}$ ，描述模态内部的局部信息。两个权重都用sigmoid将数值限制在0~1，总的权重为
$\mathbf{W}_{F}=w_{G} * \mathbf{W}_{L}$

结合上述的响应图加权融合公式，这里的权重应该能理解为对两个模态互补的加权系数，同时考虑模态间、模态内可靠性。下图是加权过程的示意， $\mathbf{R}_{G}$ 是只包含全局权重的融合， $\mathbf{R}_{F}$ 则是全局+局部的融合。下面的曲线表示了跟踪过程中 $w_{G}$ 的动态变化过程。
在这里插入图片描述
Global MFNet：该子模块包含两个卷积层：3×3×256 、9×9×1（ReLU、LRN），从而直接得到标量权值。
Local MFNet：类似于二维空间注意力机制，Local MFNet目的是得到一个二维权重分布。结构上是3 × 3 × 256 和3 × 3 × 1 的deconv，外加双线性插值上采样至响应图分辨率。上面用单独全局权重融合结果和带有局部权重的响应图进行对比，就是为了说明local MFNet的权重对模态内背景或干扰的抑制作用（更高的PSR）。

损失函数形式比较简单： $\mathcal{L}=\left\|\mathbf{R}_{F}-\mathbf{Y}\right\|_{2}^{2}$

最低0.47元/天解锁文章

木木JL

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
JMMAC rgbt tracking 文章阅读

[Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking 阅读] arXiv.orgcontributions主要特点在于表观信息和运动建模结合起来进行目标跟踪可离线训练的模态融合权重学习模块（单一模态的跟踪再进行融合）总结起来就是多模态融合与运动信息建模。framework跟踪过程主要包括：相机运动补偿单模态目标跟踪（表观模型）MFNet聚合模态跟踪结果目标运动估计跟踪器目标表观模型与运动估计
复制链接

扫一扫