论文翻译：Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

最新推荐文章于 2023-09-26 09:16:56 发布

王壹浪

最新推荐文章于 2023-09-26 09:16:56 发布

阅读量501

点赞数

分类专栏：心得人工智能

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107463716

版权

在本文中，我们提出了一种深度递进强化学习(DPRL)方法来识别基于骨架的视频中的动作，其目的是提取最有信息的帧，并丢弃序列中不明确的帧来识别动作。因为选择代表帧的选择是众多为每个视频,我们模型的框架选择通过深度强化学习进步的过程,在此期间我们逐步调整所选框架考虑的两个重要因素:(1)选定的帧和(2)的质量元素的关系到整个视频。另外，考虑到人体的拓扑结构本质上是基于图形的结构，顶点和边分别表示铰接关节和刚性骨骼，我们采用基于图形的卷积神经网络捕捉关节之间的依赖关系，进行动作识别。我们的方法在三个广泛使用的基准测试中取得了非常有竞争力的性能。

动作识别是计算机视觉的一个重要研究方向，在视频监控、人机交互等领域有着广泛的应用。与传统的RGB视频相比，基于骨架的序列包含了人体主要关节的紧凑三维位置，对视点、身体尺度和运动速度的变化具有较强的鲁棒性。因此，基于骨架的动作识别近年来受到越来越多的关注随着性价比高的深度传感器(如Kinect)和姿态估计算法[9]的发展，基于骨架的数据量快速增长[10,11]。因此，通过训练，基于骨架的动作识别越来越多地采用数据驱动的方法。

图1所示。在测试期间，我们提出的基于骨架的动作识别方法的管道。针对一段人体关节视频，首先采用帧精馏网络(FDNet)选择关键帧，并采用所提出的深度递进强化学习方法对其进行训练。然后，我们使用基于图的卷积神经网络(GCNN)来处理选择的关键帧进行动作识别。(彩色观看效果最佳)

深度模型如递归神经网络(RNN)[12-14]和卷积神经网络(CNN)[15,16]。的基于RNN的模型能够对时间依赖性进行建模，但在实践中很难训练堆叠的RNN[15,17]。另一方面，基于cnn的模型更有效，在较低层次捕获相邻帧之间的关系和较高层次[18]的长期依赖关系，近年来获得了很有前景的性能[15,16]。然而，大多数基于cnn的基于骨架的动作识别方法将序列中的所有帧都考虑为以“踢”为例，有些画面中主体是直立的，也有些画面中主体踢出了腿。后者对认识这一行动提供了更多信息。为了寻找信息最丰富的帧，我们提出了一种深度递进强化学习(DPRL)方法。由于每个视频选择不同帧的选择是众多的，我们将选择帧的过程建模为一个渐进的过程。具体地说，给定从输入序列均匀采样的初始化帧，我们逐步地二是所选帧与整个动作序列的关系。最终选择的帧被认为是视频的蒸馏，并被用来识别动作。此外,大多数我们利用基于图形的卷积神经网络(GCNN)来学习关节之间的空间依赖性。我们在三个基于骨架的动作识别数据集上评估了我们的方法，其中竞争的实验结果证明了我们的方法的有效性。基于cnn的方法采用欧几里得结构对关节进行建模，忽略了人体固有的拓扑结构。为了解决这个问题，我们将关节和它们的依赖关系建模为一个图。图的顶点包含体关节的三维坐标，而邻接矩阵捕捉它们的关系。因为关节的图是非欧几里德的。基于骨架的动作识别:近年来已有多种基于骨架的动作识别方法[12 - 15,19 - 24]，主要分为基于手工特征和基于深度学习特征两大类。对于第一类Vemulapalli等人[6]将人体骨骼作为Lie组中的一个点，并在Lie代数中实现时态建模和分类。Weng等人[8]将Naive-Bayes近(NBNN)方法扩展到[25]并利用阶段到类别的距离对动作进行分类。Wang等人[5]提出了一种无向完全图表示，并提出了一种新的图核来度量图之间的相似性。但是我们使用[5]中的图表示来建模视频，而我们工作中的图是用来捕捉人体的拓扑。基于深度学习特征的方法可以进一步分为基于cnn的模型和基于rnn的模型。对于基于cnn的模型，Ke等[15]提出了一种新的skele表示基于柱坐标的ton序列。Liu等人[16]将骨骼转化为一系列彩色图像，并将其输入到CNN architecture中进行action category的分类。受[27]的启发，Li等人[20]采用了两流CNN架构来结合人体关节的位置和速度信息。不同于基于cnn的所有帧都被平等对待的方法，我们的方法旨在找到视频中信息量最大的帧来进行动作识别。为基于rnnn的模型，Zhu等人引入了一种正则化的[12]共现特征学习的LSTM模型。Song等人[13]提出了一种时空注意模型，为视频中的不同帧和关节分配不同的权重。Liu等人[14]提出了一个信任门模块来解决骨架数据中的噪声。最近，Jain等[28]将RNN与时空图相结合，对人体运动的三个部位(脊柱、手臂和腿)的关系进行建模。与[28]不同的是，我们的图模型将人体的每一个关节作为一个顶点，这是一个较好的图模型强化学习[29]源于心理学和神经科学对人类如何在环境中学习优化自己行为的理解。它可以在数学上表示为一个马氏决策过程(MDP)[30]。当一个人被泛化为一个代理时，行为被泛化为一组操作∗&

最低0.47元/天解锁文章

王壹浪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

在本文中，我们提出了一种深度递进强化学习(DPRL)方法来识别基于骨架的视频中的动作，其目的是提取最有信息的帧，并丢弃序列中不明确的帧来识别动作。因为选择代表帧的选择是众多为每个视频,我们模型的框架选择通过深度强化学习进步的过程,在此期间我们逐步调整所选框架考虑的两个重要因素:(1)选定的帧和(2)的质量元素的关系到整个视频。另外，考虑到人体的拓扑结构本质上是基于图形的结构，顶点和边分别表示铰接关节和刚性骨骼，我们采用基于图形的卷积神经网络捕捉关节之间的依赖关系，进行动作识别。我们的方法在三个广泛使用的基准
复制链接

扫一扫