【UDT(CVPR2019)】目标跟踪

最新推荐文章于 2024-06-11 19:32:07 发布

gagajian

最新推荐文章于 2024-06-11 19:32:07 发布

阅读量2.6k

点赞数 2

文章标签：目标跟踪无监督学习

本文链接：https://blog.csdn.net/sinat_31184961/article/details/89401776

版权

Unsupervised Deep Tracking 论文地址

写在前面

师兄也提过弱监督迟早要用到跟踪上来，只不过自己确实是想不出使用的方式，今年的CVPR果然就出了一篇，算是开山之作了把，在DCFNet上面做的，在同一个数据集上训练的精度已经比SiamFC高了，让我这个还在想如何在SiamFC上做改进的，突然就有种想换框架的感觉，17年的论文，现在看来已经太老了呀。这篇就是很巧妙的用前向和后向回溯方式来一起做预测，希望从后向传回来的东西和第一帧随机选择的框一样，这样在训练过程中其实带了一定的物体轨迹的信息，他们的三帧训练的方式确实可以借鉴，就是使得目标在训练的不偏移。

Motivation

一个鲁棒的tracker应该在前向和反向的预测出来的东西一样；
数据的标注费人力物力，弱监督和无监督的引入可以在一定程度上解放这方面的人力。

Contribution

提出了一个基于DCFNet的无监督跟踪框架，通过前向和反向的学习实现；
提出了一多帧验证策略和一个敏感的loss来提高精度；
效果很好，给读者启示，开启了无监督跟踪的大门。

Algorithm

整篇文章看下来，思路比较简单巧妙，下图（a）是文中无监督学习的动机，他们认为当我们用前向传播中根据帧 i 预测出 i+1 帧的结果，和用 i+1 来反向预测i帧的结果应该一样，这样算一个loss就可以得到这个损失，就可以优化。
在这里插入图片描述
图（b）是网络的框架，就是DCFNet的框架，不过上下两个块我们可以看出，他是把帧1和帧2分别作为template，通过使用帧1预测出的帧2的结果作为帧2的伪标签，然后去用这个伪标签来预测帧1的位置，最后与真正的标签做一个loss。具体模块内实现过程如下：

1 Unsupervised Learning Prototype

他们使用相关滤波方式来实现前向传播，找到search patch中的target。在反向的时候，就是把相关滤波中的search patch和template patch互换一下，并不是我们平常理解的梯度下降那种反向传播了。具体的方式都可以从DCFNet里找到，已经开源了，不过是Matlab版本的。

2 Unsupervised Learning Improvements

在前向传播的过程中，tracker很可能会偏离轨迹，但是经过反向的修正，能保证它回到正确位置，但是其中中间偏移的帧并没有做惩罚，这里他们提出了一个多帧验证策略来惩罚这些帧。

2.1 Multiple Frames Validation

跟之前只用图片对来训练的方式不一样，他们用了三帧的训练，就是让这个前向多走一帧，然后用第三帧的结果预测第一帧，这样应变的情况更多，如下图：
在这里插入图片描述
当然这是基于相邻帧之间的运动不大的假设上的。

2.2 Cost-sensitive loss

他们在训练的时候，用的是相邻三帧来做，他们发现由于训练数据较少，所以得到的loss会很大，所以这里他们先加了一个10%的dropout，其次他们加上了运动的loss，就是相邻帧之间的运动信息，最后把这些信息一起归一化后，得到权重系数：
在这里插入图片描述
最终的loss如下，感觉还是很精心设计了的。