JMMAC rgbt tracking 文章阅读

[Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking 阅读] arXiv.org

contributions

主要特点在于

  1. 表观信息和运动建模结合起来进行目标跟踪
  2. 可离线训练的模态融合权重学习模块(单一模态的跟踪再融合)

总结起来就是多模态融合与运动信息建模。

framework

跟踪过程主要包括:

  1. 相机运动补偿
  2. 单模态目标跟踪(表观模型)
  3. MFNet聚合模态跟踪结果
  4. 目标运动估计跟踪器
  5. 目标表观模型与运动估计的切换
  6. bbox refinement

在这里插入图片描述

motion cues包括目标运动预测和摄像机运动估计(补偿相机移动)。目标运动预测通过运动信息来预测目标的位置,并确定哪个信息对跟踪器切换更可靠。

基于表观信息的多模态融合网络(MFNet)

基础的单模态跟踪器是ECO,分别对RGB和T模态进行处理,产生两个相应的响应图: R R G B ∈ R M × N \mathbf{R}_{R G B} \in \mathbb{R}^{M \times N} RRGBRM×N R T ∈ R M × N \mathbf{R}_{T} \in \mathbb{R}^{M \times N} RTRM×N,搜索区域尺寸M x N。融合过程是线性的:

R F = W F ⊙ R R G B + ( 1 − W F ) ⊙ R T \mathbf{R}_{F}=\mathbf{W}_{F} \odot \mathbf{R}_{R G B}+\left(\mathbf{1}-\mathbf{W}_{F}\right) \odot \mathbf{R}_{T} RF=WFRRGB+(1WF)RT

其中 W F ∈ R M × N \mathbf{W}_{F} \in \mathbb{R}^{M \times N} WFRM×N表示二维元素权重(0~1),由完全离线训练的MFNet产生;最后响应图的峰值代表预测的目标位置。
MFNet由两个共享特征提取的子网络组成:global and local MFNet。特征提取的骨干网络是在ImageNet上预训练的VGG-M,图像Pattch P R G B \mathbf{P}_{R G B} PRGB P T \mathbf{P}_{T} PT经过VGG-M后得到特征图 F R G B \mathbf{F}_{R G B} FRGB F T \mathbf{F}_{T} FT(conv-5,然后concat起来输入到两个子网路中:global MFNet输出全局权重 w G ∈ R 1 w_{\mathrm{G}} \in \mathbb{R}^{1} wGR1,描述模态权重;local MFNet输出局部权重(pixel-level) W L ∈ R M × N \mathbf{W}_{L} \in \mathbb{R}^{M \times N} WLRM×N,描述模态内部的局部信息。两个权重都用sigmoid将数值限制在0~1,总的权重为
W F = w G ∗ W L \mathbf{W}_{F}=w_{G} * \mathbf{W}_{L} WF=wGWL

结合上述的响应图加权融合公式,这里的权重应该能理解为对两个模态互补的加权系数,同时考虑模态间、模态内可靠性。下图是加权过程的示意, R G \mathbf{R}_{G} RG是只包含全局权重的融合, R F \mathbf{R}_{F} RF则是全局+局部的融合。下面的曲线表示了跟踪过程中 w G w_{G} wG的动态变化过程。
在这里插入图片描述
Global MFNet:该子模块包含两个卷积层:3×3×256 、9×9×1(ReLU、LRN),从而直接得到标量权值。
Local MFNet:类似于二维空间注意力机制,Local MFNet目的是得到一个二维权重分布。结构上是3 × 3 × 256 和3 × 3 × 1 的deconv,外加双线性插值上采样至响应图分辨率。上面用单独全局权重融合结果和带有局部权重的响应图进行对比,就是为了说明local MFNet的权重对模态内背景或干扰的抑制作用(更高的PSR)。

损失函数形式比较简单: L = ∥ R F − Y ∥ 2 2 \mathcal{L}=\left\|\mathbf{R}_{F}-\mathbf{Y}\right\|_{2}^{2} L=R

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值