论文翻译：Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition

最新推荐文章于 2024-07-17 14:39:25 发布

王壹浪

最新推荐文章于 2024-07-17 14:39:25 发布

阅读量706

点赞数

分类专栏：心得人工智能文章标签：网络算法 python 计算机视觉神经网络

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107570968

版权

摘要:在三维人体动作识别中，如何有效地从骨骼序列中提取时空信息仍然是一个挑战。虽然最近的动作识别方法是基于递归神经网络的，表现出了突出的性能，但这些方法的缺点之一是倾向于过分强调时间信息。由于三维卷积神经网络(3D CNN)是一种通过获取三维信号之间的相关性，同时从空间和时间维度学习特征的强大工具，本文提出了据我们所知，这是3D CNN在基于骨架的动作识别中的第一次应用。我们的方法包括三个阶段。首先将骨骼关节映射到三维坐标空间中，然后分别对其进行时空信息编码。其次，分别采用3D CNN模型，从两个流中提取深层特征。第三，为了增强深度特征捕捉全球关系的能力，我们将每个流扩展为多时间版本。广泛的实验SmartHome数据集和大规模NTU RGB-D数据集表明，我们的方法优于大多数基于rnnn的方法，验证了空间和时间信息的互补性和对噪声的鲁棒性。

动作识别在智能监控[1]、人机交互[2]、视频分析[3]等应用中得到了广泛的应用。3 -与2d RGB视频相比，人类动作的D表示提供了更全面和更有区别性的信息。近年来，基于骨骼的3D动作识别由于其高水平的表现以及对外观和周围干扰[4]、[5]、[6]、[7]的鲁棒性，越来越受到人们的关注最近，递归神经网络(RNN)的模型和长-短期记忆(LSTM)神经元[8]、[9]被用来建模骨架序列[10]的时间演化。这些基于rnnn的方法往往会过度强调时间信息[11]。然而，最有效的行动识别需要时空信息的结合。考虑到3D卷积神经网络通过执行3D卷积[12]作为动作识别、目标识别[13]、车辆检测[14]和人体姿态估计[15]接收三维输入的自然而合适的选择。因此,该本文提出了一种新的两流三维CNN模型，旨在同时增强空间和时间信息。首先，我们使用Liu等人[16]提出的基于序列的转换方法，消除了视图变化的影响。进一步，将每个动作序列转换后的骨架关节映射到三维坐标空间中。其次，为了

最低0.47元/天解锁文章

王壹浪

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition

摘要:在三维人体动作识别中，如何有效地从骨骼序列中提取时空信息仍然是一个挑战。虽然最近的动作识别方法是基于递归神经网络的，表现出了突出的性能，但这些方法的缺点之一是倾向于过分强调时间信息。由于三维卷积神经网络(3D CNN)是一种通过获取三维信号之间的相关性，同时从空间和时间维度学习特征的强大工具，本文提出了据我们所知，这是3D CNN在基于骨架的动作识别中的第一次应用。我们的方法包括三个阶段。首先将骨骼关节映射到三维坐标空间中，然后分别对其进行时空信息编码。其次，分别采用3D CNN模型，从...
复制链接

扫一扫