计算机视觉之目标跟踪——论文Learning to Track at 100 FPS with Deep Regression Networks

最新推荐文章于 2024-02-02 09:54:01 发布

Vic时代

最新推荐文章于 2024-02-02 09:54:01 发布

阅读量1.8k

点赞数

分类专栏：计算机视觉文章标签：计算机视觉深度回归跟踪目标跟踪

本文链接：https://blog.csdn.net/VictoriaW/article/details/61923418

版权

本文深入探讨了GOTURN模型在目标跟踪中的应用，该模型利用深度回归网络实现100FPS的高速跟踪。通过离线训练，模型能从大量数据中学习并具备较好的泛化能力。模型输入包括上一帧目标截图和当前帧搜索区域，输出为相对位置。论文提及模型在处理快速运动和遮挡方面的局限性，并提供了实现源码供进一步研究。

摘要由CSDN通过智能技术生成

- 论文解读
  - 模型
  - 训练
    - motion model
    - 训练数据
- 实现

Learning to Track at 100 FPS with Deep Regression Networks,
David Held, Sebastian Thrun, Silvio Savarese,
European Conference on Computer Vision (ECCV), 2016 (In press)

论文解读

本文采用深度学习回归模型GOTURN(Generic Object Tracking Using Regression Networks)解决单目标跟踪问题。单目标跟踪问题的难点在于物体的平移、旋转、大小变化、视角变化、明暗变化、变形以及遮挡等情况。

作者一直在强调的是本模型可以离线训练，这样可以从大量的训练数据中学到数据的分布；而且在使用的时候由于只有正向的一个推理过程，在GPU上的速度可以达到100fps（其他基于神经网络的跟踪器速度在0.8fps-15fps之间，性能最好的神经网络跟踪器的速递为1fps。）；另外大量的训练数据也使得模型的泛化性能比较好，可以跟踪其他没有见过的物体。需要补充一点，速度的提升的原因除了离线训练还有模型本身的原因，本文提出的模型是回归模型，网络只需正向跑一次，而其他深度跟踪模型本身是分类模型，需要对多个候选patches进行打分，以得分最高者作为目标。

模型：

这里写图片描述

输入：

GOTURN是按帧处理视频的，根据上一张图中目标的位置来判断当前图片的目标位置，本质上还是在处理图片。假设上一张图片目标以 $c=(c_x, c_y)$ 为中心，宽 $w$ 高 $h$ ，那么以 $c$ 为中心宽 $k_1w$ 高 $k_1h$ 的截图作为神经网络的一个输入。并在当前图片中同样以 $c$ 为中心截宽 $k_2w$ 高 $k_2h$ 的图，我们称这个截图为搜索区域，是神经网络的另一个输入。