论文翻译：Pose-conditioned Spatio-Temporal Attention for Human Action Recognition

最新推荐文章于 2023-11-08 15:10:02 发布

王壹浪

最新推荐文章于 2023-11-08 15:10:02 发布

阅读量421

点赞数

分类专栏：心得人工智能文章标签：卷积大数据算法 python 计算机视觉

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107751128

版权

我们解决了从多模态视频数据的动作识别涉及到铰接姿势和RGB帧，并提出了一种两流的方法。以保存子序列数据的三维张量作为输入，卷积模型对位姿流进行处理。特定的联合排序遵循人体的拓扑结构，确保不同的卷积层对应于有意义的抽象级别。原始RGB流由一个时空软注意机制处理，该机制以姿态网络的特征为条件。一个LSTM网络在每个瞬间接收来自一组图像位置的输入。一个可训练的瞥见传感器从一组预定义的位置上提取特征，这些位置由位姿流指定，即参与活动的两个人的4只手。外观特征提供手部运动和每只手所持物体的重要线索。我们发现，根据

摘要由CSDN通过智能技术生成

我们解决了从多模态视频数据的动作识别涉及到铰接姿势和RGB帧，并提出了一种两流的方法。以保存子序列数据的三维张量作为输入，卷积模型对位姿流进行处理。特定的联合排序遵循人体的拓扑结构，确保不同的卷积层对应于有意义的抽象级别。

原始RGB流由一个时空软注意机制处理，该机制以姿态网络的特征为条件。一个LSTM网络在每个瞬间接收来自一组图像位置的输入。一个可训练的瞥见传感器从一组预定义的位置上提取特征，这些位置由位姿流指定，即参与活动的两个人的4只手。外观特征提供手部运动和每只手所持物体的重要线索。我们发现，根据活动本身，在不同的时间步长，将注意力转移到不同的手是很有趣的。最后，时间注意机制学习如何随着时间的推移融合LSTM特征。我们在3个数据集上评估了该方法。最先进的结果是在最大的数据集为人类活动识别，即NTU-RGB+D，以及在SBU Kinect交互数据集。性能接近艺术的状态是在较小的MSR日常活动3D数据集上实现的。

人类活动识别是一个应用广泛的领域，包括视频监控、人机交互、机器人技术、自动驾驶等。消费者深度摄像机目前在近距离室内应用领域占主导地位，因为它们允许估计铰接姿势我们解决了类似的设置，即活动识别问题的铰接姿势可用。作为补充信息，我们还使用RGB流，它提供关于人类活动的丰富上下文线索，例如关于所持有的或与之交互的对象与计算机视觉和机器学习中的其他问题相比，准确识别人类行为仍然是一项具有挑战性的任务。我们认为，这部分是由于缺乏大型数据集。而大规模数据集已经有一段时间可用的对象识别(ILSVRC[29])和一般视频分类(sports -1百万[16]，最近youtube8百万[1])，更多的时间显示近距离人类活动的视频的消费获取过程将这种类型的数据集限制为几百或几千个视频。因此，在这类数据集上表现最好的方法，要么是基于手工制作的特征，要么是在社区花费了数年时间调优方法后，被怀疑在小型数据集上过度拟合。最近引入的像NTURGB-D[30]这样的数据集(约为57000个视频)有望带来更好的自动学习表示。其中一个挑战是视频中的大量信息。向下采样是一个明显的选择，但是在某些位置使用完整的分辨率可能有助于提取关于小的或远的物体(或人)的重要线索。在这方面，视觉注意力的模型[26,7,33](见第2节的完整讨论)最近引起了相当大的兴趣。参数能够将他们的注意力集中在特定的重要点上，不会浪费在被认为与手头任务相关性低的输入上我们提出了一种新的人类活动识别方法，通过融合铰接姿态和原始RGB输入来解决这一问题。在我们的方法中，pose有三个互补的作用:一)它本身被用作一个输入流，为区分活动类提供重要的线索;(二)raw pose(关节)作为模型处理RGB流的输入，选择在图像中瞥见的位置;iii)姿态学习的特征作为软注意机制的输入，与RGB视频[33]上的无约束软注意相比，软注意机制根据估计的当前任务的重要程度w.r.t.对每个瞥见输出进行加权。

RGB流模型是循环的(一种LSTM)，而我们的位姿表示是使用卷积神经网络学习的，它以视频的子序列作为输入。这样做的好处是双重的:一个大时间范围内的姿势表示允许注意力模型在考虑到这个时间范围内的知识的情况下，为每一个瞥见点和每一个瞬间分配一个估计的重要性例如，pose流可能表明一个人的手移向另一个人的方向，这仍然为activity类留下了几个可能的选择。这些选择可能需要在特定的瞬间将注意力转移到这只手上，以验证手中拿的是什么东西，这本身就有助于区分活动。
我们的工作贡献如下:

我们提出了一种方法，随着时间的推移，将铰接的位姿数据编码为3D张量，可以作为递归神经网络的替代方案提供给cnn。我们提出了一种特殊的关节排序来保持身体关节之间的邻域关系。提出了一种基于完整子序列的姿态特征的RGB视频空间注意机制。

我们提出了一种时间注意机制，学习如何汇集特征输出从周期性(LSTM)网络随时间的变化而自适应。作为额外的贡献，我们实验表明知识从一个大的活动数据集，如NTU(57000活动)转移到更小的数据集，如MSR Daily Activitiy 3D(300个视频)是可能的。据我们所知，这种意象式的转移还没有在人类活动中尝试过。

动画视频可以在项目页面上找到

活动、手势和多模态数据——最近的手势/动作识别方法处理几种模式，通常将2D+T RGB和/或深度数据处理为3D。帧序列被堆叠成卷，并在第一阶段被送入卷积层[3,15,27,28,41]。当额外的位姿数据可用时，三维关节位置通常被送入一个单独的网络。据报道，预处理姿态在某些情况下可以提高性能，例如增加速度和加速度[47]的坐标。据报道，姿态归一化(骨长度和视点归一化)在某些情况下有助于[28]。姿态和原始视频模式的融合传统上是通过[27]后期融合，或通过[41]早期融合层进行。在[21]中，通过随机正则化方法学习融合策略和模型参数。

动作识别的经常性架构-
大多数最近的活动识别方法是基于某种形式的递归神经网络。在变长中短期记忆(LSTM)[12]，内部记忆细胞的门控机制学习长期和短期的依赖顺序输入数据。Part-awareLSTMs[30]将内存单元分离为基于部分的子单元，并让网络分别学习每个部分的长期表示，熔合输出部件。类似地，Du等[8]使用双向LSTM层，这符合解剖层次结构。骨骼被分割成解剖学上相关的部分(腿、胳膊、躯干等)，因此第一层的每个子网络都专门针对一个部分。特性在通过层时逐步合并。多维LSTMs[11]是从不同维度多次重复出现的模型。最初用于图像识别ÿ

最低0.47元/天解锁文章

王壹浪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：Pose-conditioned Spatio-Temporal Attention for Human Action Recognition

我们解决了从多模态视频数据的动作识别涉及到铰接姿势和RGB帧，并提出了一种两流的方法。以保存子序列数据的三维张量作为输入，卷积模型对位姿流进行处理。特定的联合排序遵循人体的拓扑结构，确保不同的卷积层对应于有意义的抽象级别。原始RGB流由一个时空软注意机制处理，该机制以姿态网络的特征为条件。一个LSTM网络在每个瞬间接收来自一组图像位置的输入。一个可训练的瞥见传感器从一组预定义的位置上提取特征，这些位置由位姿流指定，即参与活动的两个人的4只手。外观特征提供手部运动和每只手所持物体的重要线索。我们发现，根据
复制链接

扫一扫