Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
视觉跟踪
视觉跟踪是计算机视觉领域的一个最基本问题。因为运动模糊、遮挡、光照变化、背景杂乱等跟踪障碍的存在,使得找到目标的准确位置很困难。
传统的跟踪方法
- 基于检测的跟踪方法(MIL、TLD)
- 基于相关滤波的跟踪方法(KCF)
使用低水平的手工特征。尽管它们的计算效率较高,跟踪性能也较好,但是由于缺乏足够的特征表示,在解决上述障碍方面仍然非常有限。
基于CNN的跟踪方法
近年来,一些算法利用在大规模数据集上预训练的CNN,使得跟踪性能有了巨大的提升。
进而,Nam等人提出一种基于在跟踪视频数据集预训练过的CNNs模型的检测跟踪算法,并且实现了跟传统算法相比更好的性能。然而,这种方法通常侧重于提升辨别目标和背景的能力,因此可能忽略以下问题:
- 采用效率低下的跟踪算法,即探索感兴趣区域并通过匹配跟踪模型来搜索最佳候选对象;
- 需要大量标记的跟踪序列进行训练,并且在半监督情况下不能使用没有标记的视频帧。
为了解决上述问题,本文提出了一种新的跟踪器,通过动作决策网络控制的重复性动作来实现目标的跟踪。
动作决策网络的设计就是要产生一个能在新一帧能找到目标位置和尺寸的动作。ADNet学习这样的一种策略,即从目标当前位置的状态中选择最优的动作来跟踪目标。在ADNet中,策略网络是用卷积神经网络设计的,它的输入是前一个状态的位置下裁剪得到的图像块,输出是包括平移和尺度缩放的动作概率分布。
网络结构
一些细节
Action
State
Reward
在一次迭代的过程中是0,迭代终止的时候是
- IoU代表bT和G的重合度
- G代表ground truth
AD Network的训练过程
- 用监督学习训练 使得网络在某一状态下输出正确的动作。
- 用强化学习训练 使网络学习到状态到动作的策略。
- 在线自适应更新 使网络在应对外观变化或形变时更鲁棒。
实验
数据集
- VOT2013,VOT2014,VOT2015,ALOV300(预训练)
- OTB50和OTB100 网址
跟踪效果的评价指标
- (precision)准确率:算法得到的中心点与ground truth的中心点的距离
- (success)成功率:重合度IoU
实验结果
表明在半监督学习中,甚至是监督学习中,加入强化学习后的表现更好。
比现存基于深度网络并采用检测跟踪策略的跟踪器快3倍。此外,这款追踪器的快速版本实现了实时速度(15 fps),并且精度超过了目前最先进的实时追踪器。