骨架动作分析

全面综述:基于3D骨架的深度学习行为识别方法

  • 2020.2.14
  • A Survey on 3D Skeleton-Based Action Recognition Using Learning Method
  • 传统的行为分析往往都是基于视频数据,近年来基于骨架的行为识别逐渐发展渐渐成为一个不大不小的领域
  • 骨架信息的获取可以使用 RGB,RGBD 或者 kinect 之类的传感器直接获取
  • 基于骨架信息的行为识别 是一个 时序问题。
    • 传统的骨架行为识别往往是在某些特定骨架姿态中提取特定的运动模式,即手动设置特征,如不同关节之间的相对旋转和平移;然而这种方法的数据迁移性较差,在某些数据集上效果较好,但是换了数据集或者doman不一样了,效果可能会降低不甚理想
    • 随着深度学习的逐渐发展,基于CNN,RNN 和 GCN 这类网络的骨架行为分析的效果渐渐显现
      在这里插入图片描述
  • 在基于RNN的方法中,骨架序列是关节坐标的自然时间序列,这可以被视为序列向量,而RNN本身就适合于处理时间序列数据。此外,为了进一步改善学习到的关节序列的时序上下文信息,一些别的RNN(LSTM,GRU)方法也被用到骨架行为识别中。
  • 当使用CNN来处理这一基于骨架的任务的时候,可以将其视为基于RNN方法的补充,因为CNN结构能更好地捕获输入数据的空间cues,而基于RNN的方法正缺乏空间信息的构建。
  • 最后,相对新的方法图卷积神经网络GCN也有用于骨架数据处理中,因为骨架数据本身就是一个自然的拓扑图数据结构(关节点和骨头可以被视为图的节点和边),而不是图像或序列那样的格式。
  • 上述三种基于深度学习的方法都获得了空前的表现,但是大多数review文献只是专注于传统方法或者是基于RGB-(D)数据的深度学习方法(作者的意思就是说别的综述在总结深度学习行为识别方法的时候都是专注于以RGB或者RGBD数据为输入的那些方法,而本文是专注于将骨架数据作为输入的那些深度学习行为识别方法)

基于RNN的方法

  • RNN的方法特点在于,前一次的输出作为后一次的输入
  • 时间空间上的建模作为行为识别的首要原则,单纯的RNN时间建模不够,因此提出了双流RNN方法 《Modeling Temporal Dynamics and Spatial Configurations of Actions Using Two-Stream Recurrent Neural Networks》
    在这里插入图片描述
  • 提出了基于树结构的人体骨架遍历方法《Spatio-Temporal LSTM with Trust Gates for 3D Human Action Recognition》
    在这里插入图片描述
  • 基于注意力机制的LSTM网络学习时空特征《Memory Attention Networks for Skeleton-based Action Recognition》
  • 另外,虽然LSTM和GRU可以一定程度上环节梯度消失和爆炸,但是tanh和sigmoid还是会一定程度上造成层间梯度的衰减;提出了独立的循环神经网络《Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN》,该网络可以解决梯度爆炸和消失问题,这使得构建一个更长更深的RNN网络来学习鲁棒性更好的高级语义特征成为可能。这一改进的RNN不仅可以用于骨架行为识别,也可用用于其他领域例如语言模型。在这种结构中,一层内的神经元彼此独立,因此可以用于处理更长的序列。
    在这里插入图片描述
  • 提出了全局上下文注意力《Global contextaware attention lstm networks for 3d action recognition》global contex-aware attention来选择性地关注骨架序列中信息丰富的关节,
    在这里插入图片描述
  • 骨架估计会存在误差,直接输入网络,会引入噪声,影响网络的性能。《Ensemble Deep Learning for Skeleton-based Action Recognition using Temporal Sliding LSTM networks》首先将骨架映射到其他的空间,来提升尺度变化、旋转、平移的鲁棒性,然后从转换后的数据中提取显著运动特征,而不是直接将原始骨架数据输入到LSTM中
    在这里插入图片描述
    在这里插入图片描述

基于CNN的方法

  • 卷积神经网络也被用于基于骨架的行为识别。和RNN不同的是,CNN凭借其自然、出色的高级信息提取能力可以有效且轻松地学习高级语义cues。不过CNN通常专注于image-based任务,而基于骨架序列的行为识别任务毫无疑问是一个强时间依赖的问题。所以在基于CNN的架构中,如何平衡且更充分地利用空间信息和时域信息就非常有挑战了。
  • 为了满足CNN输入的需要,3D骨架序列数据通常要从向量序列转换为伪图像,然而,要同时具有时空信息的相关表示pertinent representation并不容易,因此许多研究者将骨架关节编码为多个2D伪图像,然后将其输入到CNN中来学习有用的特征
  • CNN-based方法通常把时域动态和关节简单地编码为行和列,来将骨架序列表示为图像,因此卷积的时候仅考虑了卷积核内的相邻关节来学习共现特征,也就是说,对每个关节来说,一些潜在相关的关节会被忽略,因此CNN不能学习到相应的有用的特征。Chao和Qiaoyong[61]使用一个端到端的框架通过分层方法来学习共现特征,在该框架中逐步汇总不同层级的上下文信息。首先对点级point-level信息进行独立编码,然后在时域和空域将它们组合成语义表示。
  • 在CNN-Based的技术中,除了3D骨架序列表示之外也有一些别的问题,例如模型的大小和速度[3],CNN的架构(双流或者单流[62]),遮挡,视角变化等等[2,3]。所以使用CNN来解决基于骨架的行为识别任务仍是一个开放的问题,需要研究人员进行深入研究。
    -《Co-occurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation》
    -《Skelemotion: A new representation of skeleton joint sequences based on motion information for 3d action recognition》

基于GCN的方法

  • 人类3D骨架数据是自然的拓扑图,而不是一系列向量(RNN-based方法中的思路)或是伪图像(CNN-based方法中的思路),因此GCN(能够有效表示图形结构数据)最近被频繁地用到骨架行为识别任务中。
  • 目前现存的两种与图相关的神经网络有图循环神经网络GNN和图卷积神经网络GCN,本综述主要关注GCN,同时我们也会展示一些相关的先进结果。而且仅从骨架的角度来看的话,把骨架序列简单地编码为序列向量或2D网格并不能完全表达相关关节的依赖关系。
  • 图卷积神经网络Graph convolutional neural networks作为CNN的一种泛化形式,可以应用于骨架图在内的任意结构。在基于GCN的骨架行为识别技术中,最重要的问题是如何把原始数据组织称特定的图结构(还是和骨架数据的表达相关)。
  • Sijie和Yuanjun 首次提出了一种基于骨架动作识别的新模型–时空图卷积网络ST-GCN,该网络首先将人的关节作为时空图的顶点vertexs,将人体连通性和时间作为图的边edges;然后使用标准Softmax分类器来讲ST-GCN上获取的高级特征图划分为对应的类别。这项工作让更多人关注到使用GCN进行骨架行为识别的优越性,因此最近出现了许多相关工作。《Spatial temporal graph convolutional networks for skeleton-based action recognition》
    在这里插入图片描述
  • 最常见的研究集中于对骨架数据的有效使用[68,78],Maose和Siheng[68]提出的运动结构图卷积网络(Action Structural Graph Convolutional Network, AS-GCN)不仅能够识别人的动作,还可以使用多任务学习策略来输出目标下一个可能的姿态pose。这项工作中构造的图结构可以通过两个子模块Actional Links和Structual Links来捕获关节间更丰富的依赖性。图6展示了AS-GCN的特征学习过程和其广义骨架图结构,该模型中使用的多任务学习策略可能是一个很不错的方向,因为行为识别任务可能会从其他补充任务中得到提升。《Actionalstructural graph convolutional networks for skeleton-based action recognition》《Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition》

数据集

  • 骨架序列数据集主要有MSRAAction3D[79],3D Action Pairs[80],MSR Daily Activity3D[39]等,这些数据都在许多综述中有过分析[27,35,36],所以我们这里主要分析如下两个数据集NTU-RGB+D[22]和NTU-RGB+D 120[81]。
  • NTU-RGB+D数据集在2016年提出,包含56880个视频samples,这些样本都是从一个大规模骨架行为识别数据集Microsoft Kinect v2上收集的,NTU-RGB+D像图1(a)那样提供了每个人、每个动作的25个关节的3D空间坐标。在该数据集上,建议使用两种协议对提出的方法进行评估:跨子类Cross-Subject和跨视角Cross-View。其中Cross-Subject包含40320个训练样本和16560个验证样本,划分规则是根据40个subjects进行的;其中Cross-View将camera2和3作为训练集(37920个样本),将camera1作为验证集(18960个样本)。
  • 近来,提出了NTU-RGB+D的扩展版本NTU-RGB+D 120,包含120个动作类别和114480个骨架序列,视角点是155个。我们将在表I中展示最近相关的骨架行为识别性能,其中CS表示Cross-Subject,CV在NTU-RGB+D表示Cross-View,在NTU-RGB+D 120表示Cross-Setting。
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值