Real-time ‘Actor-Critic’ Tracking阅读笔记

论文题目:Real-time ‘Actor-Critic’ Tracking

作者:Boyu Chen1[0000−0003−2397−7669], Dong Wang1∗[0000−0002−6976−4004], Peixia

Li1[0000−0001−6167−5309], Shuang Wang2[0000−0002−6462−6040], and Huchuan

Lu1[0000−0002−6668−9758]

来源:ECCV 2018

开源代码: 

 

本文是大连理工大学卢湖川教授团队提出的方法,卢老师在视频追踪和显著性检测方面是国内的权威,目前18年光顶会cvpr就发表9篇。本文的改进之处也是在阅读和深入研究本领域的基础上,利用强化学习策略,完成和改进视频追踪任务,思路和研究点的切入上有很好的借鉴性,首先不要局限于就看图说话小领域的任务,然后应该在大量阅读paper的基础上找论文创新点是从那切入的。团队提出了一种基于“Actor-Critic”框架的具有实时性能的新型跟踪算法。该框架由两个主要部分组成:“演员”和“评论家”。 “Actor”模型旨在推断连续动作空间中的最佳选择,直接使跟踪器将边界框移动到当前帧中对象的位置。对于离线训练,引入“评论家”模型以形成具有强化学习的“演员 - 评论家”框架,并输出Q值以指导“演员”和“评论家”深度网络的学习过程。然后,我们修改原始的深度确定性策略梯度算法,以有效地训练我们的“Actor-Critic”模型用于跟踪任务。对于在线跟踪,“Actor”模型提供动态搜索策略以有效地定位跟踪对象,并且“Critic”模型充当验证模块以使我们的跟踪器更加健壮。这项工作是第一次尝试利用连续动作和'Actor Critic'框架进行视觉跟踪。大众基准测试的广泛实验结果表明,所提出的方法是目前最好的,具有实时性性能。

在visual tracking 中,已经有一些比较好的方法,比如MDNnet,改进的ADNet,都是基于 benchmarks ,比如OTB-100 和VOT2015 开展的。具体效果如上面图像所展示,第一排的都是初始的目标标签框的位置,随着视频帧数的增加,那么如何准确的定位到原来的目标位置至关重要!

在连续帧或者间断帧怎么移动框寻找在目标物体,如上图所示,下一排图像都是目标框移动的轨迹,可以看到,在停留相同帧数后,ab搜索都非常的耗时和麻烦,而且不能够实现连续帧的追踪!

那么,很明显,本文的创新点就是要改进上述两个缺点。下面记录一下一些前人方法:

从对象定位的角度来看,视觉跟踪可以被视为动态搜索过程,以基于先前的观察精确地定位当前帧中的目标。通常,这种动态搜索过程可以通过抽样验证框架来实现。在每个帧中,随机或密集地采样一组候选状态以描述可能的对象位置。然后,利用观察模型来验证每个候选者并确定被跟踪对象的最佳状态。然而,具有强大观察模型的跟踪器将非常慢,因为它需要计算大量采样候选者的验证分数,对于传统方法和深度视觉跟踪器。相关滤波器(CF)技术可以加速用循环矩阵结构验证密集采样的候选者,从而使许多实时跟踪器具有良好的性能。已经进行了许多尝试来改进原始CF模型的特征组合,尺度估计,基于部分的扩展,多任务学习,约束效应,仅举几例。然而,当我们将它与深层特征相结合以追求更高的精度时,CF的这种速度优势明显减弱。

然后迭代搜索的算法也被用于visual tracking,比如 Meanshift , Lucas-Kanade ,百度查知,Mean shift 算法是基于核密度估计的爬山算法,可用于聚类、图像分割、跟踪等,很形象,我们经常可以在聚类中看到它的应用,如下:

非常形象,在一定的策略下,中间的圈能够漂移到目标物体将其圈中,那么在抽样的图片中,我们就可以用这种方法去追踪目标!

但是,这个是有问题的!

可以很清楚,首先,是慢,因为要进行多次迭代搜索,而且还是在大量的样本中;其次,这个中心的选定是手动的!这就是一个隐患,无监督学习,尤其以聚类为代表的算法,都有这个缺陷!而且,具体你针对图像用什么样的特征作为Mean-shift的输入,一般都是在像素级别的图像或者直方图等的统计特征,很难使用到high level的特征,比如语义信息等等。

针对这些问题,首先清楚,在这几年机器学习火热的前提下,传统的方法已经很难和深度学习的方法比较,那么接下来的思路就是怎么用深度学习,强化学习等技术解决上述问题。

MDNnet,改进的ADNet就是使用强化学习的杰出代表。但是就如第一个图一样,比传统方法能快3倍。但是存在之前说的两个问题。

本文就是为了解决这两根问题的,具体如下:

“Actor”模型旨在提供一个连续的动作,直接让跟踪器将边界框移动到当前帧中的对象位置。它可以通过基于深度强化学习的“批评家”网络进行有效的离线训练。在跟踪过程中,“批评家”模型将参与者产生的动作结合起来,以确定动作的质量并促进跟踪的改进

的性能。

很明显,这个两部分不同的工作,然后统一到一个框架当中,这也是目前自己慢慢发现的一个规律,那就是复杂化模型,使用多个算法模块,将DL等技术当作一个API模块,然后统一到一个大的框架中。

就是上面这个框架解决的上面问题,很明显,有两部分完成,a实现图像特征提取,经过变量的叠加,实现提供连续的动作,然后由强化学习完成框的移动。算法有Q-learning完成训练。测试和训练分开。

 

视频追踪问题的设定:一个MDP问题。

MDP:MP,MRP发展而来,强化学习最后就是一个求解MDP最优的问题。马尔科夫性:无后效性。

模型的细节部分:

offline training

  1. 用的是轻权重的网络,VGG-M,具体如上图,3个卷积,3个fc,好处很明显,就是快;
  2. 训练用DDPG。这是一种使用在‘Critic’ and ‘Actor模型中的学习方法,核心思想就是,基于强化学习的规则收集起来的样本对,迭代更新‘Critic’ and ‘Actor‘中的参数。

具体细节见论文。

Online tracking

  1. 就是初始化网络。对actor和critic分别进行初始化。
  2. 追踪就用上面的框架。

上面就是实验分析结果,可以看到,在OTB-2013和2015数据集上,本文方法最优。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值