Real-time ‘Actor-Critic’ Tracking阅读笔记

最新推荐文章于 2024-03-13 10:34:35 发布

置顶康海东

最新推荐文章于 2024-03-13 10:34:35 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/NEUdeep/article/details/83783353

版权

deep learning 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

论文题目：Real-time ‘Actor-Critic’ Tracking

作者：Boyu Chen1[0000−0003−2397−7669], Dong Wang1∗[0000−0002−6976−4004], Peixia

Li1[0000−0001−6167−5309], Shuang Wang2[0000−0002−6462−6040], and Huchuan

Lu1[0000−0002−6668−9758]

来源：ECCV 2018

开源代码：

本文是大连理工大学卢湖川教授团队提出的方法，卢老师在视频追踪和显著性检测方面是国内的权威，目前18年光顶会cvpr就发表9篇。本文的改进之处也是在阅读和深入研究本领域的基础上，利用强化学习策略，完成和改进视频追踪任务，思路和研究点的切入上有很好的借鉴性，首先不要局限于就看图说话小领域的任务，然后应该在大量阅读paper的基础上找论文创新点是从那切入的。团队提出了一种基于“Actor-Critic”框架的具有实时性能的新型跟踪算法。该框架由两个主要部分组成：“演员”和“评论家”。 “Actor”模型旨在推断连续动作空间中的最佳选择，直接使跟踪器将边界框移动到当前帧中对象的位置。对于离线训练，引入“评论家”模型以形成具有强化学习的“演员 - 评论家”框架，并输出Q值以指导“演员”和“评论家”深度网络的学习过程。然后，我们修改原始的深度确定性策略梯度算法，以有效地训练我们的“Actor-Critic”模型用于跟踪任务。对于在线跟踪，“Actor”模型提供动态搜索策略以有效地定位跟踪对象，并且“Critic”模型充当验证模块以使我们的跟踪器更加健壮。这项工作是第一次尝试利用连续动作和'Actor Critic'框架进行视觉跟踪。大众基准测试的广泛实验结果表明，所提出的方法是目前最好的，具有实时性性能。

在visual tracking 中，已经有一些比较好的方法，比如MDNnet，改进的ADNet，都是基于 benchmarks ，比如OTB-100 和VOT2015 开展的。具体效果如上面图像所展示，第一排的都是初始的目标标签框的位置，随着视频帧数的增加，那么如何准确的定位到原来的目标位置至关重要！

在连续帧或者间断帧怎么移动框寻找在目标物体，如上图所示，下一排图像都是目标框移动的轨迹，可以看到，在停留相同帧数后，a和b搜索都非常的耗时和麻烦，而且不能够实现连续帧的追踪！

那么，很明显，本文的创新点就是要改进上述两个缺点。下面记录一下一些前人方法：

从对象定位的角度来看，视觉跟踪可以被视为动态搜索过程，以基于先前的观察精确地定位当前帧中的目标。通常，这种动态搜索过程可以通过抽样验证框架来实现。在每个帧中，随机或密集地采样一组候选状态以描述可能的对象位置。然后，利用观察模型来验证每个候选者并确定被跟踪对象的最佳状态。然而，具有强大观察模型的跟踪器将非常慢，因为它需要计算大量采样候选者的验证分数，对于传统方法和深度视觉跟踪器。相关滤波器（CF）技术可以加速用循环矩阵结构验证密集采样的候选者，从而使许多实时跟踪器具有良好的性能。已经进行了许多尝试来改进原始CF模型的特征组合，尺度估计，基于部分的扩展，多任务学习，约束效应，仅举几例。然而，当我们将它与深层特征相结合以追求更高的精度时，CF的这种速度优势明显减弱。

然后迭代搜索的算法也被用于visual tracking，比如 Meanshift , Lucas-Kanade ，百度查知，Mean shift 算法是基于核密度估计的爬山算法，可用于聚类、图像分割、跟踪等，很形象，我们经常可以在聚类中看到它的应用，如下：

非常形象，在一定的策略下，中间的圈能够漂移到目标物体将其圈中，那么在抽样的图片中，我们就可以用这种方法去追踪目标！

但是，这个是有问题的！

可以很清楚，首先，是慢，因为要进行多次迭代搜索，而且还是在大量的样本中；其次，这个中心的选定是手动的！这就是一个隐患，无监督学习，尤其以聚类为代表的算法，都有这个缺陷！而且，具体你针对图像用什么样的特征作为Mean-shift的输入，一般都是在像素级别的图像或者直方图等的统计特征，很难使用到high level的特征，比如语义信息等等。

针对这些问题，首先清楚，在这几年机器学习火热的前提下，传统的方法已经很难和深度学习的方法比较，那么接下来的思路就是怎么用深度学习，强化学习等技术解决上述问题。

MDNnet，改进的ADNet就是使用强化学习的杰出代表。但是就如第一个图一样，比传统方法能快3倍。但是存在之前说的两个问题。

本文就是为了解决这两根问题的，具体如下：

“Actor”模型旨在提供一个连续的动作，直接让跟踪器将边界框移动到当前帧中的对象位置。它可以通过基于深度强化学习的“批评家”网络进行有效的离线训练。在跟踪过程中，“批评家”模型将参与者产生的动作结合起来，以确定动作的质量并促进跟踪的改进

的性能。

很明显，这个两部分不同的工作，然后统一到一个框架当中，这也是目前自己慢慢发现的一个规律，那就是复杂化模型，使用多个算法模块，将DL等技术当作一个API模块，然后统一到一个大的框架中。

就是上面这个框架解决的上面问题，很明显，有两部分完成，a实现图像特征提取，经过变量的叠加，实现提供连续的动作，然后由强化学习完成框的移动。算法有Q-learning完成训练。测试和训练分开。

视频追踪问题的设定：一个MDP问题。

MDP:MP,MRP发展而来，强化学习最后就是一个求解MDP最优的问题。马尔科夫性：无后效性。

模型的细节部分：

offline training：

用的是轻权重的网络，VGG-M,具体如上图，3个卷积，3个fc，好处很明显，就是快；
训练用DDPG。这是一种使用在‘Critic’ and ‘Actor模型中的学习方法，核心思想就是，基于强化学习的规则收集起来的样本对，迭代更新‘Critic’ and ‘Actor‘中的参数。

具体细节见论文。

Online tracking：

就是初始化网络。对actor和critic分别进行初始化。
追踪就用上面的框架。

上面就是实验分析结果，可以看到，在OTB-2013和2015数据集上，本文方法最优。

康海东

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Real-time ‘Actor-Critic’ Tracking阅读笔记

论文题目：Real-time ‘Actor-Critic’ Tracking作者：Boyu Chen1[0000−0003−2397−7669], Dong Wang1∗[0000−0002−6976−4004], PeixiaLi1[0000−0001−6167−5309], Shuang Wang2[0000−0002−6462−6040], and HuchuanLu1[0000...
复制链接

扫一扫