论文笔记ATOM: Accurate Tracking by Overlap Maximization

1. 论文标题及来源

ATOM: Accurate Tracking by Overlap Maximization, CVPR, 2019
下载地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Danelljan_ATOM_Accurate_Tracking_by_Overlap_Maximization_CVPR_2019_paper.pdf

2. 拟解决问题

a. 大多数跟踪器采用较简单的多尺度搜索估计目标的位置,但是目标定位是一个复杂任务,无法通过简单的方式实现精准定位

3. 解决方法

3.1 算法流程

在这里插入图片描述
该算法由四个模块组成。它的流程如下:
a. 通过骨干网络提取参考帧的特征,记为 ϕ ( r ) \phi(r) ϕ(r)
b. 将 ϕ ( r ) \phi(r) ϕ(r)输入IoU Modulation模块,得到Modulation Vector(调制向量),记为 V m V_m Vm
c. 通过骨干网络提取测试帧中所有proposal的特征,记为 ϕ ( t ) \phi(t) ϕ(t)
d. 将 ϕ ( t ) \phi(t) ϕ(t) V m V_m Vm输入IoU Predictor模块,预测所有proposal的IOU
e. 通过Classifier在线学习target的特征,得到响应图
f. 根据响应图和预测的IoU得到最终的回归框

3.2 目标估计分支

在这里插入图片描述
该模块为分为上下两个分支,上分支处理参考图片(模板),下分支是测试分支(搜索区域),它的流程如下:
a. 使用ResNet-18提取参考帧的第三层和第四层特征
b. 将这两层特征各自通过卷积层得到新的特征图,分别记为 ϕ ( r 3 ) , ϕ ( r 4 ) \phi(r_3),\phi(r_4) ϕ(r3)ϕ(r4)
c. 通过PrPool提取 ϕ ( r 3 ) , ϕ ( r 4 ) \phi(r_3),\phi(r_4) ϕ(r3)ϕ(r4)中RoI的特征,记为 ϕ ( r 3 ′ ) , ϕ ( r 4 ′ ) \phi(r'_3),\phi(r'_4) ϕ(r3)ϕ(r4)
d. 将 ϕ ( r 3 ′ ) \phi(r'_3) ϕ(r3)通过FC层与 ϕ ( r 4 ′ ) \phi(r'_4) ϕ(r4)融合
e. 将融合后的特征分别通过两个FC层得到对应的调制向量,分别记为 V 3 m , V 4 m V_{3m},V_{4m} V3mV4m
f. 测试帧处理方式类似,得到测试帧RoI特征后,分别记为 ϕ ( t 3 ′ ) , ϕ ( t 4 ′ ) \phi(t'_3),\phi(t'_4) ϕ(t3)ϕ(t4)
g. ϕ ( t 3 ′ ) \phi(t'_3) ϕ(t3)和调制向量 V 3 m V_{3m} V3m进行点乘操作得到新的特征图 ϕ ( t 3 ′ ′ ) \phi(t''_3) ϕ(t3) ϕ ( t 4 ′ ) \phi(t'_4) ϕ(t4) V 4 m V_{4m} V4m进行点乘操作得到新的特征图 ϕ ( t 4 ′ ′ ) \phi({t''_4}) ϕ(t4)
h. ϕ ( t 3 ′ ′ ) \phi({t''_3}) ϕ(t3) ϕ ( t 4 ′ ′ ) \phi({t''_4}) ϕ(t4)分别通过FC层之后,得到各自的新特征
i. 将两者新特征融合,然后连接FC得到预测的IoU

3.3 在线分类分支

该分支含有两个FC层,即
f ( x ; w ) = ϕ 2 ( w 2 ∗ ϕ 1 ( w 1 ∗ x ) ) f(x; w) = \phi_2(w_2 * \phi_1(w_1 * x)) f(x;w)=ϕ2(w2ϕ1(w1x))
损失函数采用DCF中的常用损失函数
L ( w ) = ∑ j = 1 m r j ∣ ∣ f ( x j ; w ) − y j ∣ ∣ 2 + ∑ k λ k ∣ ∣ w k ∣ ∣ 2 L(w) = \sum_{j=1}^m r_j||f(x_j; w) - y_j||^2 + \sum_k \lambda_k ||w_k||^2 L(w)=j=1mrjf(xj;w)yj2+kλkwk2
y j y_j yj是W * H的高斯响应标签
在这里插入图片描述
数学功底不行,这里就不详细解释了,感兴趣的可以去看看原论文

3.3 难样本挖掘

本节非本文的重点,但是觉得比较有意思,就简单提一下。它的做法如下:
当出现干扰时,即响应图上含有多个高响应点,则将在线更新模块的学习率调整为原来的两倍,并且立即进行一次优化。

4. 实验结果

4.1 消融实验

在这里插入图片描述
在这里插入图片描述

4.2 数据集结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. 总结

该论文主要解决目标定位问题,认为目标定位是个复杂任务,无法通过简单的多尺度方式估计位置。因此本文借鉴IoU-Net思想,提出IoU调制模块和IoU预测模块,根据参考分支的gt框生成调制向量,将调制向量输入测试分支,与测试帧的proposal进行点乘操作,得到预测的IoU;除此之外,还加速了在线学习的优化过程,在1080上速度能达到30fps。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值