在本文中,我们提出了一种深度递进强化学习(DPRL)方法来识别基于骨架的视频中的动作,其目的是提取最有信息的帧,并丢弃序列中不明确的帧来识别动作。由于每个视频选择代表性帧的数量众多,我们通过深度强化学习将帧选择建模为一个渐进的过程,在此过程中我们考虑两个重要因素对选择的帧进行逐步调整:(1)所选帧的质量;(2)所选帧与整个视频的关系。另外,考虑到人体的拓扑结构本质上是基于图形的结构,顶点和边分别表示铰接关节和刚性骨骼,我们采用基于图形的卷积神经网络捕捉关节之间的依赖关系,进行动作识别。我们的方法在三个广泛使用的基准测试中取得了非常有竞争力的性能。
动作识别是计算机视觉的一个重要研究方向,在视频监控、人机交互等领域有着广泛的应用。与传统的RGB视频相比,基于骨架的序列包含了人体主要关节的紧凑三维位置,对视点、身体尺度和运动速度的变化具有较强的鲁棒性。因此,基于骨架的动作识别近年来受到越来越多的关注。随着性价比高的深度传感器(如Kinect)和姿态估计算法[9]的发展,基于骨架的数据量快速增长[10,11]。
因此,通过训练,基于骨架的动作识别越来越多地采用数据驱动的方法。拍摄行动的视频以“踢”为例,在一些画面中,主体是直立的,也有一些画面中主体踢出了腿。后者对认识这一行动提供了更多信息。为了寻找信息最丰富的帧,我们提出了一种深度递进强化学习(DPRL)方法。由于每个视频选择不同帧的选择是众多的,我们将选择帧的过程建模为一个渐进的过程。具体来说,给定从输入序列中均匀采样的初始化帧,我们根据两个重要因素在每个状态下逐步调整所选帧。一个是动作识别所选择的框架的区分能力。二是所选帧与整个动作序列的关系。最后选择的帧被认为是视频的精馏,并被用来识别动作。此外,大多数基于cnn的方法采用欧几里得结构对关节进行建模,忽略了人体固有的拓扑结构。为了解决这个问题,我们将关节和它们的依赖关系建模为一个图。图的顶点包含体关节的三维坐标,而邻接矩阵捕捉它们的关系。由于关节的图形位于非欧几里得空间,我们利用基于图形的卷积神经网络(GCNN)来学习关节之间的空间依赖关系。我们在三个基于骨架的动作识别数据集上评估了我们的方法,其中竞争的实验结果证明了我们的方法的有效性。基于骨架的动作识别:近年来已有多种基于骨架的动作识别方法[12 - 15,19 - 24],主要分为基于手工特征和基于深度学习特征两大类。对于第一类,Vemulapalli等人[6]将人体骨骼作为Lie组中的一个点,并在Lie代数中实现时态建模和分类Weng等人[8]将Naive-Bayes近邻(NBNN)方法扩展到[25]并利用阶段到类别的距离对动作进行分类。Koniusz等人[26]提出了两种基于核的张量表示来捕获两个动作序列之间的兼容性和单个动作的动态信息。Wang等人[5]提出了一种无向完全图表示,并提出了一种新的图核来度量图之间的相似性。但是,我们使用[5]中的图表示来建模视频,而我们工作中的图是用来捕捉人体的拓扑。基于深度学习特征的方法可以进一步分为基于网络神经网络的模型和基于神经网络的模型。对于基于cnn的模型,Ke等[15]提出了一种新的skele表示基于柱坐标的吨序列。Liu等人[16]将骨骼转化为一系列彩色图像,并将其输入到CNN architecture中进行action category的分类。受[27]的启发,Li等人[20]采用了两流CNN架构来结合人体关节的位置和速度信息。不同于基于cnn的所有帧都被平等对待的方法,我们的方法旨在找到视频中信息最丰富的帧来进行动作识别。为基于rnnn的模型,Zhu等人引入了一种正则化的[12]共现特征学习的LSTM模型。Song等人[13]提出了一种时空注意模型,为视频中的不同帧和关节分配不同的权重。Liu等人[14]提出了一个信任门模块来解决骨架数据中的噪声。最近,Jain等[28]将RNN与时空图相结合,对人体运动的三个部位(脊柱、手臂和腿)的关系进行建模。与[28]不同的是,我们的图模型将人体的每一个关节作为一个顶点,这是一种更好的利用骨架数据的方法。
强化学习[29]源于心理学和神经科学对人类如何在环境中学习优化自己行为的理解。它可以在数学上表示为一个马尔科夫决策过程(MDP)[30]。当一个人被泛化为一个代理时,行为被泛化为一组操作∗。一个典型的强化学习问题可以表述为agent通过最大化其从环境中获得的数值奖励来优化其行动策略。作为一项开创性工作,Mnih等人[31]结合了深神经网络的最新进展。他们提出了深度强化学习(DRL)来跨越高维感官输入和动作之间的鸿沟,并在雅达利(Atari)游戏中实现了人类水平的控制。近年来,计算机视觉也从DRL中受益。例如,Mnih等人[32]提出了反复注意模型,其中视觉注视Haque et al.[33]将DRL应用于人的识别,Yeung et al.[34]应用于动作检测,Jie et al.[35]应用于物体检测。最近,Yun等人[36]使用DRL进行视觉跟踪,Rao等人[37]进行人脸识别。到目前为止,用于动作识别的DRL进展甚微,特别是基于骨架的动作识别。[34,37]类似于我们在DRL的目的上的工作,即选择视频中的关键帧。然而,在这两个作品中,动作只影响一个单一帧。更具体地说,[37]决定是否删除一个帧: