我觉得这篇真的是神作了!!!!!不仅精度拿到了VOT的第一,速度也可以和相关滤波媲美,达到了160FPS.
它速度快的一个原因是,由于直接回归出候选框的位置,所以不需要再进行多尺度的检查了。节省了很多时间。而且回归位置的好处就是,候选框比较紧致,长宽比是没有限制的,可以更好地跟踪目标。(很好地适应尺度自适应变化)
我觉得在某种程度上,它是siamfc和goturn的结合。
RPN是参考了目标检测Faster R-CNN 的候选区域生成网络。然后分为两个分支,一个是前景背景分类网,一个是候选框位置回归网。回归要注意的是它输出的是偏移量,而用回归实现偏移的前提就是原本anchor的四个参数和groundtruth相差不大,这样就可以把调节过程当作一个线性过程,如此一来才能通过回归算法建模。
有一点疑惑,我觉得这两个分支的K个anchor很难对应起来。
另外生成的anchor是在上一帧目标的附近,基于一个假设:相邻两帧的motion不会太大。