Learning to Track at 100 FPS with Deep Regression Networks,
David Held, Sebastian Thrun, Silvio Savarese,
European Conference on Computer Vision (ECCV), 2016 (In press)
论文解读
本文采用深度学习回归模型GOTURN(Generic Object Tracking Using Regression Networks)解决单目标跟踪问题。单目标跟踪问题的难点在于物体的平移、旋转、大小变化、视角变化、明暗变化、变形以及遮挡等情况。
作者一直在强调的是本模型可以离线训练,这样可以从大量的训练数据中学到数据的分布;而且在使用的时候由于只有正向的一个推理过程,在GPU上的速度可以达到100fps(其他基于神经网络的跟踪器速度在0.8fps-15fps之间,性能最好的神经网络跟踪器的速递为1fps。);另外大量的训练数据也使得模型的泛化性能比较好,可以跟踪其他没有见过的物体。需要补充一点,速度的提升的原因除了离线训练还有模型本身的原因,本文提出的模型是回归模型,网络只需正向跑一次,而其他深度跟踪模型本身是分类模型,需要对多个候选patches进行打分,以得分最高者作为目标。
模型:
输入:
GOTURN是按帧处理视频的,根据上一张图中目标的位置来判断当前图片的目标位置,本质上还是在处理图片。假设上一张图片目标以 c=(cx,cy) 为中心,宽 w 高
那么问题来了,不同图片上的目标的BBox大小形状不一,导致截图不一样,但是神经网络的输入要求固定大小,怎么办呢?对截图进行reshape处理,缩放到一样大小。
为什么要在当前图片中以 c 为中心截宽