Learning to Track Objects from Unlabeled Videos(USOT)
1 移动物体检测(Bounding box生成)
1.1 光流法获得候选框
对视频的每一帧使用光流法获得候选框,对得到的候选框进行评分,选择分数最高的作为最终的选择,组成集合B = {Bt | 1 ≤ t ≤ L}。
1.2 dynamic programming(动态规划)
由于物体移动,变形,遮挡等因素,此时的边界框必定含有噪声框(即与前后帧的候选框差异很大)。采取动态规划算法,
通过计算B与B’的R,选出最终的边界框集合B’,此时的帧之间边界框变化更加光滑。
对于DP没有选择候选框的帧,我们使用线性插值根据DP选择的相邻候选框生成伪框。
2 Naive Siamese Tracker(原始跟踪器)
3 Cycle Memory Training(循环记忆训练 )
上面的tracker明显有很大的局限性。首先,由于模板和搜索区域被裁剪在同一帧中,跟踪器不会在运动和外观变化较大的情况下学习。其次,该跟踪器无法在线更新自身,因此无法在长时间跨度或复杂场景下跟踪对象。
由此,提出了一个很有借鉴意义的训练方式,循环训练。
(先用naive traker做self-track。)分别用训练好的naive track对一定时间区域的同一对象的帧做前向追踪(因为目标可能一段时间后就消失,所以这中方法的可追踪时间就一定会有限制),将得到的一系列的特征图,使用 PrPool来汇集特征,然后用汇集的特征Memory queue与search area做多尺度相关卷积,反向追踪到同一目标。(这部分卷积和naive tracker的分类支路共享权重,图中带*的圆圈相同颜色)。得到 N表示Nmem表示记忆帧的数量,再进行如图操作。
. 指阿达玛积 Hadamard product。
然后再把C转换成25X25X1,得到 search area 的response map,即R。
训练总的loss采用
mem和cls相同