论文翻译:A New Representation of Skeleton Sequences for 3D Action Recognition

提出了一种利用骨骼序列进行三维动作识别的新方法。,人体骨骼关节的三维轨迹)。该方法首先将每个骨架序列转换为三个片段,每个片段由若干帧组成,然后利用深度神经网络进行时空特征学习。每个剪辑由骨架序列的柱坐标的一个通道生成。所生成的片段的每一帧代表了整个骨架序列的时间信息。并结合了关节之间的特定空间关系。整个剪辑包含多个具有不同空间关系的帧,为人体骨骼提供了有用的空间结构信息。我们建议使用深卷积神经网络学习的长期时间信息骨架序列帧的生成的片段,然后使用一个多任务学习网络(MTLN)共同并行处理所有帧生成的片段将采取行动的空间结构信息识别。实验结果表明,该方法在三维动作识别中是有效的。

3D骨骼数据记录了人体骨骼关节的轨迹,对光照变化具有鲁棒性,对摄像机视图[14]不变性。随着高精度、廉价设备的普及,基于3D骨骼序列的动作识别越来越受到关注[49,42,6,37,54,26,22,46,19]。在本文中,我们主要研究基于骨架的三维动作识别。为了识别视频动作,需要利用序列的时间信息来理解人体姿态的动态[29,9,44,8,20]。为骨架数据中,人体骨骼的空间结构也是[54]动作识别的重要线索。每个骨骼序列只提供人体骨骼关节的轨迹。关节的时间序列可用于具有长-短期记忆(Long-ShortTermMemory, LSTM)神经元的递归神经网络(RNNs)[11,12],探索骨骼序列的空间结构和时间结构,用于动作识别[6,41,54,37,26],虽然LSTM网络的设计是为了探索长期的时间依赖性问题,但LSTM仍然很难记住具有多个时间步长的整个序列的信息[48,13]。此外,构造深层LSTM来提取高级特征也很困难[35,30]。卷积神经网络(CNNs)[24]在图像分类中取得了巨大的成功[2,3,23, 38, 39, 50, 21]。但是对于视频动作识别,它缺乏对整个视频[45]的长期时间依赖性建模的能力。

        在这篇文章中,而不是直接从骨架序列中挖掘长期时间信息,我们首先将骨架序列表示为只有几帧的剪辑。利用生成的片段,可以有效地学习骨骼序列的长期时间结构CNNs来处理生成的剪辑的帧图像。此外,人体骨骼的空间结构信息可以从整个片段中挖掘出来。更具体地说,对于每个骨架序列,我们生成三个剪辑对应于骨架序列柱坐标的三个通道。每个剪辑由四帧组成,通过计算关节与四个参考关节的相对位置来生成。片段的每一帧描述了整个骨骼序列的时间信息,并包含了关节之间的一个特定的空间关系。整个夹具集合了多个具有不同空间关系的框架,提供了重要的骨架关节空间结构信息。

       由于骨骼序列的时间信息被包含在生成的视频片段的帧中,因此可以通过从生成的视频片段帧中提取特征来学习骨骼序列的长期时间结构。更具体地说,生成的每一帧剪辑都被输入到一个深度的CNN中,以提取一个CNN特征。然后将三个剪辑在同一时间步长的三个CNN特征(见图1)连接成一个特征向量。因此,从所有时间步长中提取四个特征向量。每个特征向量代表时间信息,关节之间的空间关系。不同时间步长的特征向量表示不同的空间关系,它们之间具有内在的关系。提出利用不同特征向量之间的内在关系进行多任务动作识别学习网络(MTLN)。多任务学习的目的是通过联合训练多个相关任务并利用它们的内在关系[1]来提高泛化性能。在MTLN中,每个特征向量的分类被视为一个独立的任务,而MTLN则被视为一个独立的任务,向量和输出多个预测,每个预测对应一个任务。同一骨架序列的所有特征向量与骨架序列具有相同的标签。在训练过程中,每个任务的损失值都是使用它自己的类分数单独计算的。然后将所有任务的损失值相加,确定网络的总损失,并用于学习网络参数。在测试期间,对所有任务的类分数取平均值,形成对action类的最终预测。多任务学习以sharin为权重,同时解决多个任务,哪些可以提高单个任务的效果。

        本文的主要贡献总结如下。(1)我们提出将每个骨架序列转换为一种新的表示,即:,通过使用深度cnn从帧图像中学习层次特征,允许对骨骼序列进行全局长期时序建模。(2)我们引入一个MTLN来处理生成的剪辑中帧的所有CNN特征,从而学习骨架序列的空间结构和时间信息。MTLN利用产生的剪辑的不同帧之间的内在关系来提高性能。我们的实验结果表明,MTLN的性能优于连接或池帧的特征4.3)。(3)提出的方法在三个骨架数据集上取得了最先进的性能,包括大规模的NTU RGB+D数据集[37]。

       在这一节中,我们涵盖了使用手的基于骨架的动作识别方法的相关文献,精心设计的特性或使用深度学习网络。手工制作的特征在[17]中,关节位置轨迹的协方差矩阵在分层的时间层次上计算来建模骨架序列。在[43]中,通过计算各关节与其他关节的成对相对位置来表示骨架序列的每一帧和傅立叶时间金字塔(FTP)用于建模时态模式。在[51]中,关节的两两相对位置也被用来表征姿态特征、运动特征、以及骨架序列的偏移特征。然后将主成分分析(PCA)应用于归一化特征,计算特征关节作为表征。在[49]中,计算关节位置的三维直方图来表示骨骼序列的每一帧,并使用HMMs对时间动力学进行建模。在[42]中,身体各部分之间的旋转和平移被用作表示,骨架序列被建模为李群中的曲线。时间动力学模型与FTP。

         深度学习方法在[6]中,骨骼关节被分成5个集合对应身体的5个部位。将它们送入5个LSTMs进行特征融合和分类。在[54]中,骨骼关节被送入深度在每个时间段进行LSTM,学习骨骼关节固有的共现特征。在[37]中,通过感知部件的LSTM学习身体部件的长期上下文表示。在[26]中,利用时空LSTM学习骨架序列的时空信息。还提出了一种可信赖的闸门,以消除嘈杂的接缝。该方法在NTU RG

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值