论文翻译:Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition

       摘要:在三维人体动作识别中,如何有效地从骨骼序列中提取时空信息仍然是一个挑战。虽然最近的动作识别方法是基于递归神经网络的,表现出了突出的性能,但这些方法的缺点之一是倾向于过分强调时间信息。由于三维卷积神经网络(3D CNN)是一种通过获取三维信号之间的相关性,同时从空间和时间维度学习特征的强大工具,本文提出了据我们所知,这是3D CNN在基于骨架的动作识别中的第一次应用。我们的方法包括三个阶段。首先将骨骼关节映射到三维坐标空间中,然后分别对其进行时空信息编码。其次,分别采用3D CNN模型,从两个流中提取深层特征。第三,为了增强深度特征捕捉全球关系的能力,我们将每个流扩展为多时间版本。广泛的实验SmartHome数据集和大规模NTU RGB-D数据集表明,我们的方法优于大多数基于rnnn的方法,验证了空间和时间信息的互补性和对噪声的鲁棒性。

        动作识别在智能监控[1]、人机交互[2]、视频分析[3]等应用中得到了广泛的应用。3 -与2d RGB视频相比,人类动作的D表示提供了更全面和更有区别性的信息。近年来,基于骨骼的3D动作识别由于其高水平的表现以及对外观和周围干扰[4]、[5]、[6]、[7]的鲁棒性,越来越受到人们的关注最近,递归神经网络(RNN)的模型和长-短期记忆(LSTM)神经元[8]、[9]被用来建模骨架序列[10]的时间演化。这些基于rnnn的方法往往会过度强调时间信息[11]。然而,最有效的行动识别需要时空信息的结合。考虑到3D卷积神经网络通过执行3D卷积[12]作为动作识别、目标识别[13]、车辆检测[14]和人体姿态估计[15]接收三维输入的自然而合适的选择。因此,该本文提出了一种新的两流三维CNN模型,旨在同时增强空间和时间信息。首先,我们使用Liu等人[16]提出的基于序列的转换方法,消除了视图变化的影响。进一步,将每个动作序列转换后的骨架关节映射到三维坐标空间中。其次,为了

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值