论文翻译:Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

本文提出了时空图卷积网络(ST-GCN)用于骨架序列的动作识别,解决了传统方法在捕捉关节空间结构和时间动态上的局限。ST-GCN在两个大数据集上实现了对现有方法的显著改进,通过自动学习数据模式,提高了表达能力和泛化能力。文章详细介绍了ST-GCN的架构,包括图卷积操作和多种分区策略,以及其在不同数据集上的实验结果,证明了其在骨架动作识别任务中的有效性。
摘要由CSDN通过智能技术生成

      人体骨骼的动力学特性为人体动作识别提供了重要的信息。传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,从而导致表达能力有限,难以泛化。在这项工作中,我们提出了一个新的动态骨架模型,称为时空图卷积网络(ST-GCN)。它通过自动学习数据的空间和时间模式,超越了以往方法的局限性。这个公式不仅带来了更大的表达能力,而且更强的泛化能力。在两个大数据集动力学和NTU-RGBD上,它实现了对主流方法的实质性改进。

        人的动作识别在视频理解中起着重要的作用,近年来成为一个活跃的研究领域。一般而言,人类行为可以从多种模式被识别(Simonyan和Zisserman 2014;Tran等人2015;王、乔、唐2015年;王等。2016;(Du, Wang, and Wang 2015;(Liu等,2016)。在这些模式中,动态的人体骨骼通常传达重要的信息,这些信息与其他信息是互补的。然而,相对于外观和光流的建模,动态骨架的建模受到的关注较少。在本研究中,我们系统地研究了这一模态,旨在发展一种原则和有效的方法来建模动态骨架,并利用它们来进行动作识别。

          动态骨架模态可以自然地用人体关节位置的时间序列以二维或三维坐标的形式表示。然后,通过分析人类的运动模式,可以识别人类的动作。早期使用骨架进行动作识别的方法是简单地利用单个时间步长的关节坐标形成特征向量,并对其进行时间分析(Wang et al. 2012;Fernando et al. 2015)。这些方法的能力是有限的,因为它们没有明确地利用关节之间的空间关系,这对理解人类行为至关重要。最近,新方法试图利用关节之间的自然连接(Shahroudy et al. 2016;Du,王王2015)。这些方法显示出了令人鼓舞的改进,这表明了连接的重要性。然而,现有的方法大多依靠手工制作的部件或规则来分析空间模式。因此,为特定应用而设计的模型很难推广到其他应用。

图1:这个工作中使用的骨架序列的时空图,在这里建议的ST-GCN操作。蓝点表示身体的关节。人体关节之间的内部边界是根据人体的自然连接来定义的。框架间的边缘连接着连续框架之间的相同关节。关节坐标用作ST-GCN的输入。

        为了超越这些限制,我们需要一种新的方法来自动捕获嵌入在关节的空间结构中的模式以及它们的时间动态。这就是深度神经网络的力量所在。然而,正如前面提到的,骨架是图形形式的,而不是2D或3D网格,这使得使用卷积网络等经过验证的模型变得困难。最近,图神经网络(GCNs)将卷积神经网络(CNNs)推广到任意结构的图,图神经网络(gcn)概括卷积神经网络(cnn)图的任意结构,收到越来越多的关注并成功地采用在许多应用程序中,如图像分类(布鲁纳et al . 2014),文档分类(Defferrard,布松,Vandergheynst 2016),和semi-supervised学习(Kipf和威林2017)。然而,以前沿着这条线进行的许多工作假设是固定的图作为输入。应用GCNs对大规模数据集(如人体骨骼序列)上的动态图建模还有待探索。

        摘要本文提出将图神经网络扩展到时空图模型,即时空图卷积网络(ST-GCN),设计一种用于动作识别的骨架序列的通用表示。如图1所示,该模型建立在一系列骨架图之上,其中每个节点对应于人体的一个关节。有两种类型的边,即符合节点的自然连通性的空间边和跨越连续时间步连接相同节点的时间边。在此基础上构造了多层时空图卷积,使得信息可以在时空维度上进行集成。ST-GCN的层次化本质消除了手工构造部分分配或遍历规则的需要。这不仅可以提高表达能力,从而提高性能(如我们的实验所示),而且还可以很容易地归纳出不同的上下文。在通用GCN公式的基础上,从图像模型中得到启发,研究了设计图形卷积核的新策略。

       本工作的主要贡献在于三个方面:1)我们提出ST-GCN,一个用于动态骨架建模的通用的基于图的公式,它是第一个应用基于图的神经网络来完成这项任务的公式。2)提出了设计卷积核的几个原则ST-GCN满足骨架建模的具体要求。3)在两个大数据集上进行基于骨架的动作识别,与以往使用手工制作零件或遍历规则的方法相比,该模型具有更好的性能,并且大大减少了手工设计的工作量。ST-GCN的代码和模型是公开的1。

相关工作:

          图形上的神经网络。将神经网络推广到具有图形结构的数据是深度学习研究中的一个新兴课题。讨论的神经网络结构包括递归神经网络,这项工作与CNNs(图卷积网络)的泛化有关(gcn)。在图上构造GCNs的原理一般有两种:1)光谱视角,其中以光谱分析的形式考虑图卷积的局域性(Henaff, Bruna, LeCun 2015);Duvenaud等,2015;Li et al. 2016;Kipf和威林2017);2)空间视角,将卷积滤波器直接应用于图节点及其相邻节点(Bruna et al. 2014;Niepert, Ahmed和Kutzkov2016)。这项工作遵循th的精神,在空间域上构造CNN过滤器,通过限制每个过滤器的应用到每个节点的1邻居。

      基于骨骼的动作识别。人体骨骼和关节轨迹对光照变化和场景变化具有很强的鲁棒性,并且由于高度精确的深度传感器或姿态估计算法,易于获取(Shotton et al. 2011;Cao等,2017a)。因此,有大量的基于骨架的动作识别方法。这些方法可以分为基于手工特征的方法和深度学习方法。第一类方法设计了几个手工制作的特征,以捕捉关节运动的动力学。这些可以是关节轨迹的协方差矩阵(Hussein et al. 2013),关节的相对位置(Wang et al. 2012),或者身体部位之间的旋转和平动(Vemulapalli, Arrate, and Chellappa 2014)。最近,深度学习的成功导致了基于深度学习的骨架建模方法的激增。这些作品使用了递归神经网络时间cnn (Li et al. 2017;Ke等人2017;以端到端的方式学习动作识别模型。在这些方法中,许多强调了建模人体部分关节的重要性。但是这些部分通常是使用领域知识明确分配的。我们的ST-GCN是第一个将图CNNs应用到基于骨架的动作识别任务中的。与以往的方法不同的是,它可以通过利用图卷积的局部性和时间动态来隐式地学习部分信息。通过消除手工分配部分的需要,模型更容易设计,更有效地学习更好的动作表示。

空间时间图ConvNet:

         在进行活动时,人体的关节以局部小群的形式活动,称为“身体部位”。现有的基于骨骼的动作识别方法已经验证了在建模中引入人体部位的有效性(Shahroudy et al. 2016;Liu et al. 2016;张,刘,肖2017)。我们认为,改进的主要原因是部分限制了建模的关节轨迹“局部区域”,而不是整个骨架,从而形成了骨骼序列的层次表示在图像目标识别等任务中,层次化表示和局部性通常是由卷积神经网络(Krizhevsky,Sutskever和Hinton 2012),而不是手动分配对象部件。这促使我们将cnn的吸引力引入到基于骨架的动作识别中。这一尝试的结果是ST-GCN模型。

管道概述:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值