[行为识别综述] Going deeper into action recognition: A survey

最新推荐文章于 2024-03-31 10:57:17 发布

Ixiaohuihuihui

最新推荐文章于 2024-03-31 10:57:17 发布

阅读量2.5k

点赞数

分类专栏： action recognition 文章标签：行为识别全面性的回顾

本文链接：https://blog.csdn.net/dlh_sycamore/article/details/89280697

版权

action recognition 专栏收录该内容

2 篇文章

订阅专栏

前一个月一直在看行为识别相关的工作，这是我看的第一篇综述：
Going deeper into action recognition: A survey

Abstract

理解视觉数据中的人类行为与互补研究中的进展密切相关，如目标识别，人类动力学，领域自适应和语义分割。在过去的十年间，人类行为识别在早期还被限制在可控环境，到现在有更先进的解决方案（能学习百万个视频，几乎能应用到所有日常的活动中。）行为识别有广泛的应用范围从视频监控到人机交互，行为识别中的科学里程碑可以更快地达到，最后导致我们以前认为是好的方法在短时间更快被取代（原词是demise，翻译成灭亡不好啊?）。这激励我们对于在识别人类行为方面取得的值得注意的进步提供一个全面性的综述。基于这个原因，首先我们讨论了行为识别领域开创性的方法——手工特征表达，然后，介绍基于深度学习方法的领域。在本篇综述里，我们保持客观的思考，谈到令人赞赏的进步也会提到不可避免地后退，希望能为读者提出新的问题，激发新的研究方向。

Introduction

首先什么是一个行为呢？
人体运动从肢体的最简单运动延伸到一组肢体和身体的复杂关节运动。举个例子，踢球时腿的运动是一个简单的运动，但起跳，接下来进行头部射球是腿部，手部，头部和整个身体的集体运动。尽管它的概念很直观也很简单，术语 action似乎很难定义。接下来我们提供从相关文献中看到的一些例子：
（1）Moeslund and Granum and Poppe 将action 定义为：可以在肢体水平描述的原子运动。因此，术语action定义了一系列不同的动作，从“简单和原始的动作”到“循环的身体动作”。术语"activity被用来定义为“若干后续行动”，表示一个复杂的运动。举例来说，左腿向前是跑步的基本动作。跨栏是一项由开始，跑步和跳跃动作组成的活动。
（2）Turaga等定义action为由一个人执行，通常持续很短的时间。activity定义为“由几个人以一种受约束的方式相互作用而执行的一系列复杂的行为。"举例来说，行为是走路或者游泳，活动是两个人挥手或一群人踢足球。
（3）Chaaraoui等建议在人类行为分析的背景下对人类动作进行分级分解。这个分解是基于语义和时间粒度的，将行为看成是”动作“和"活动"间的一个等级。行为被定义为一个原始运动（如坐，走），他们能持续几分钟。
（4）Wang等认为一个行为的真正含义在于”一个动作给环境带来的变化或转变“，比如踢球。
我们提供了一个统一的定义，以满足我们在本研究中的目的：
“Action is the most elementary human-surrounding interaction with a meaning”
行为是最基本的有意义的人和环境的交互。

行为识别研究分类

在这里插入图片描述
作者这里将行为识别分为基于特征表示的和基于深度网络的两个类别。
行为识别早期的研究利用3D模型来描述行为，一个显著的例子是WALKER层次模型来理解和解释人类行为。另一个例子是建立连接的圆柱体来为行人识别建立肢体连接模型。
在这里插入图片描述
左边的这张图是行走的模型，它由一系列3维结构建模。右图是将WALKER 框架扩展到行人识别。

全局表征

通常来说，从视频中构建准确的3D模型是困难并且花销昂贵的，因此，许多解决方案避免使用3D建模和选择在全局或局部的表示一个行为。
（1）全局表示（Holistic representations）:动作识别是基于人体结构、形状和运动的全局表示提取的。
（2）局部表示（Local representations）:动作识别是基于局部特征的提取的。
运动能量图（Motion Energy Image）和运动历史图(Motion History Image)，顾名思义，是用单个图像编码与行为相关的信息；MEI是描述动作发生位置的图像，被定义为：
在这里插入图片描述
D(x, y, t）是一个二值化图像序列，表示被检测物体的像素， $E_t$ 表示第 $t$ 个时刻形成的MEI。MEI通过描述物体如何移动和运动在空间中发生的位置，来进行基于运动的物体识别。运动能量图显示了运动的轮廓和能量的空间分布。在运动能量图的基础上产生了运动历史图。MHI模板表示动作图像是如何运动的。 MHI中是一种基于视觉的模板方法，通过计算时间段内同一位置的像素变化，将目标运动情况以图像亮度的形式表现出来。它的每个像素的灰度值表示了在一组动作序列中该位置像素的最近的运动情况。最后运动的时刻越接近当前帧，该像素的强度值越高。因此，MHI图像可以表征人体在一个动作过程中最近的动作情况，这使得MHI被广泛应用于动作识别领域。
在这里插入图片描述
例如这是一个“跳”的动作序列，中间是运动能量图（MEI），下面是运动历史图（MHI）。MEI捕捉动作发生的位置，MHI表示动作图像是如何移动的。最右边的列显示的在一个行为结束时的模板图像。
MEI的扩展版本的主要思想是通过其轮廓在时空中产生的三维形状来表示一个动作，如下图。为便于分类，通过计算曲面内各点到达边界所需的平均时间，将得到的3维曲面转换为二维图。一些研究认为用3维的图表示增强了对于视角变化的鲁棒性。
在这里插入图片描述
这张图左半部分显示了时空体（spatio-temoral volumes)来表示一个行为发生的序列。通过计算到达边界点所用的平均时间，将三维表示转换为二维地图。右半部分的图是网球和走路序列的时空曲面。表面几何结构（如峰、谷）用于表示一个行为。
通过将物体轮廓沿时间轴叠加，可以建立STV（space-time volume)。三维时空体的STV的方向，速度和形状的变化固有地表征了潜在的行为。行为的轮廓是从STV表面提取的一组属性（例如高斯曲率），这显示出对观察点变化的鲁棒性。
视频的整体表示大致在1997年至2007年之间主导着行动识别的研究，因为这种表征更有可能保留行动的空间和时间结构。然而，现在，局部和深度表征收到青睐。这种转变有多种原因。例如，Dollar等人[20]声称整体方法过于僵化，无法捕捉行动的可能变化（例如，视角、外观、遮挡）。Matikainen等人认为以轮廓为基础的表征无法在轮廓内捕捉细节。

局部表征

行为的局部表征遵循流程：interest point detection—>local representation extraction—>aggregation of local descriptors.

兴趣点检测（interest point detection）

为了建立一个时空兴趣点（Space Time Interest Point) 检测器, Laptev将Harris角点检测器扩展到3维的Harris detector。3维Harris角点检测器可以识别出具有较大空间变化和非恒定运动的点。
在这里插入图片描述
红色的点就是检测出来的时空兴趣点，沿时间轴的空间变化是明显的。在这个芭蕾舞视频中，舞者在整个视频中保持头部静止。因此，尽管有大量的空间特征，但在面部没有发现时空兴趣点。同样，在她的腰部，由于有限的空间变化，无法检测到时空兴趣点。

To be updated