DAT（NIPS 2018）视频目标跟踪论文笔记

最新推荐文章于 2022-07-25 17:20:21 发布

越野者

最新推荐文章于 2022-07-25 17:20:21 发布

阅读量2.6k

点赞数 3

分类专栏：视频目标跟踪（Visual tracking）深度学习（Deep learning）论文笔记（Paper notes） PyTorch Python 数字图像处理、模式识别与深度学习文章标签：视频目标跟踪深度学习 Python PyTorch DAT

本文链接：https://blog.csdn.net/discoverer100/article/details/87910433

版权

1. 论文基本信息

论文标题：Deep Attentive Tracking via Reciprocative Learning
论文作者：Shi Pu（Beijing University of Posts and Telecommunications）等人
论文出处：NIPS 2018
在线阅读：https://arxiv.org/pdf/1810.03851.pdf
源码链接：https://github.com/shipubupt/NIPS2018

2. 概述

论文通过在深度学习损失函数中引入注意力正则（attention regularization），并且利用reciprocative learning进行反向传播训练得到attention map，该attention map会影响跟踪过程中产生的classification score，从而实现更加鲁棒的跟踪算法。

3. 研究动机

(1) 有的跟踪算法采用固定形态的空间加权作为注意力机制，不够灵活，难以适应目标的显著运动。

传统采用了视觉注意力的跟踪方法，有些采用了某种特定形态的空间加权（e.g. CF2采用的cosine窗函数，SRDCF采用高斯函数），这一类方法往往给予中央区域更高的权重，为周边区域分配较低的权重，这里以SRDCF为例，其空间加权如下图所示（注： SRDCF里面用的是惩罚权重，因此plot中的数值越高的部分表示惩罚越大）：
在这里插入图片描述

可以推测，在这种注意力机制下，在目标物体发生显著位移时会影响跟踪的效果（因为目标如果发生显著位移，会出现在采样区域的边缘，权重降低后容易被跟踪器标记为背景信息）。

(2) 有的跟踪算法利用附加的注意力模块来实现单一视频帧的特征加权，难以实现时间维度上的鲁棒性。

举例，STAM和HART跟踪算法就采用了额外的注意力模块来生成特征权重，然而，这些权重都是基于单帧视频（通常都用current frame）画面学习得到的，在目标物体的运动过程中，它们难以集中到稳定、鲁棒的信息上来。并且，如果特征加权中出现了少量偏差，就有可能导致分类错误。

4. 提出的方法

不同于现有的注意模型利用附加模块来生成注意力数据，论文作者使用网络输出关于输入图像的偏导数作为注意力图。论文使用attention map作为training阶段的正则项，使分类器学习到对外观变化具有鲁棒性的区域（这部分区域就是注意力）。在测试过程中，论文直接使用深度网络输出的得分来定位目标对象。论文的总体结构如下图所示：
在这里插入图片描述

论文提出的方法总体上可以分为四个步骤：

输入一幅training图像，首先通过前向传播计算classification score。
根据上述classification score，利用反向传播计算关于输入图像偏导数的方式，得到attention map（此反向传播不更新网络参数，仅仅只是为了得到attention map）。
将上述attention map作为深度网络损失函数正则项，迭代训练深度网络（此反向传播更新网络参数）。
在testing阶段，直接利用上述迭代训练好的深度网络作正向传播，进行目标物体定位。

4.1 Attention Exploitation（对应总体步骤1 - 2）

CNN网络的前向传播，可以用一阶泰勒展开（first-order Taylor expansion）进行描述，如下所示：
${f_c}\left( I \right) \approx A_c^ \top I + B \tag {1}$
其中， $I$ 表示输入的图像， $c$ 表示某一特定的类别class， ${f_c}$ 表示CNN网络输出，其含义是：输入图像属于类别 $c$ 的可能性。 $A_c^ \top$ 表示网络相对于输入 $I$ 的梯度， $B$ 表示偏置。对于 $A_c^ \top$ ，它可以表示为：
${A_c} = {\left. {\frac{ {\partial {f_c}\left( I \right)}}{ {\partial I}}} \right|_{I = {I_0}}} \tag {2}$

从公式(1)可以看出：

输入 $I$ 的类别 $c$ 得分受 $A_c$ 元素值的影响。
$A_c$ 内部的元素值表明输入图像 $I_0$ 的相应像素对最终类别得分的贡献度（输入图像目标区域的贡献度高，背景区域的贡献度低）。

这样，我们就可以将 $A_c$ 看做是一个attention map。并且从 $A_c$ 的定义可知，对于不同的输入图像，其值是特定的。

根据公式(2)，论文通过计算输出

最低0.47元/天解锁文章

越野者

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
DAT（NIPS 2018）视频目标跟踪论文笔记

1. 论文基本信息论文标题：Deep Attentive Tracking via Reciprocative Learning论文作者：Shi Pu（Beijing University of Posts and Telecommunications）等人论文出处：NIPS 2018在线阅读：https://arxiv.org/pdf/1810.03851.pdf源码链接：https...
复制链接

扫一扫