论文翻译:MSR-GCN: Multi-Scale Residual Graph Convolution Networks for HumanMotion Prediction

ICCV 2021

原文链接:[2108.07152] MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human Motion Prediction (arxiv.org)

摘要

人体运动预测是一个具有挑战性的任务,由于未来姿态的随机性和非周期性。最近,图卷积网络被证明可以有效学习姿态关节点之间的动态关联,这有助于姿态预测。另一方面,可以递归地抽取一个人体姿态来获取多个尺度的一系列姿态。随着抽象程度的增加,姿态的运动变得更稳定,这也有利于姿态预测。在这篇文章中,我们提出了一个新颖的多尺度残差图卷积网络(MSR-GCN)来用于人体姿态预测任务,以一种端到端的方式。这些GCN被用于提取从细粒度到粗粒度再从粗粒度到细粒度的特征。被提取到的每个尺度的特征然后再被结合并解码来获取输入和目标姿态之间的残差。直接的监督被强加于所有的预测姿态中,这强迫网络学习更有表征性的特征。我们提出的方法在两个标准的基准数据集上进行了评估,即Human3.6数据集和CMU Mocap数据集。实验结果表明我们的方法超过sota方法。代码和预训练模型可在https://github.com/Droliven/MSRGCN获得。

1、介绍

人体运动预测在许多领域扮演了一个重要的角色,例如人机交互,自动驾驶和视频补全。简单的周期性运动模式可以被传统的方法解决,诸如隐马尔科夫模型,线性动态系统,受限玻尔兹曼机,高斯过程隐变量模型和随机森林,然而更复杂的运动用这些方法是不可解的。最近的方法大多都是借助深度学习的全数据驱动方法。然而,考虑到人体运动的随机性和非周期性,给定任意观测姿态准确预测长期未来运动仍然是一个具有挑战性的问题。主要的难点在于建模人体姿态的时空依赖。

许多先前的工作用CNN、RNN和GAN来解决这个有挑战的任务。然而,他们忽视了帧内不同关节点之间的运动学上的依赖。尽管他们在某些情况取得了成功,预测的准确性依赖于卷积核的大小和一帧一帧预测的稳定性。现如今,图卷积网络在多个邻域被广泛应用,也包括人体运动预测任务,它在非网格化图结构数据上工作得很好,尤其是对于基于骨骼得3D人体姿态序列。最近,Mao等人联合地通过带有可学习连接的CGN建模空间结构和通过离散余弦变换(DCT)建模时间信息来预测人体运动。Li等人提出一个动态的多尺度图卷积神经网络在一个编码-解码器框架内来提取多尺度的深度特征。尽管这两个工作都在基准数据集上展现出令人满意的成绩,仍还有提升到高质量预测的空间。

在这篇文章中,我们提出了一个多尺度残差图卷积网络(MSR-GCN),如图3所示,来用于3D人体运动预测。将一个人体姿态视为全连接的图,其中的节点是姿态关节点,我们运用一个图卷积网络来灵活地动态学习所有关节点对之间的关系,忽略他们之间的物理距离。但是仅仅GCN单独不能捕捉人体姿态的层次化结构。也就是,如图1所示,我们可以通过将空间上靠近的关节点分组在一起来并只用一个关节点表示来抽象一个人体姿态。因为一组关节点通常来自于相同的人体部分,以这种方式逐步抽取人体部分可以显著稳定人体的运动模式。我们发现更粗层次的运动是更稳定的,它的姿态预测也更容易。首先在最粗层次的预测姿态,再逐步预测更细层次的姿态是非常有前景的。

基于上述分析,我们补偿GCN使其具有建模层次化和人体姿态上下文信息的能力,通过用一个多尺度架构设计多个GCN。一组GCN组成一个递减的路径来提取从细到粗尺度的特征,紧接着另一组GCN逆向地沿着递增的路径提取多尺度特征。基于这些特征,我们预测所有尺度的姿态并强加直接监督来获得更有代表性的特征。我们也在输入和输出之间加了残差连接,根据文献33,使得整个框架学习残差而不是直接学习目标姿态。

注意到Li等人也观察到这个人体姿态的天然的层次化特性,但他们旨在借助多尺度关节点抽象提取丰富的特征,然后用一个循环解码器从多尺度特征中解码未来预测。相反,我们方法中的编码解码器是用一个类似UNet的多尺度的配备中间损失的方式组织的,与他们的多尺度策略不同。

简而言之,我们的主要技术贡献在于:

1、我们提出了一个新颖的多尺度残差图卷积网络,用于人体姿态预测,以一种端到端的方式,它由多个GCN以一种多尺度架构组织。

2、精心设计的递减和递增GCN块可以以细到粗和粗到细两种方式提取特征。

3、中间在每个尺度的监督强迫模型学习了更有表征力的特征,有益于高质量未来预测。

2、相关工作

人体运动预测。许多基于深度学习的方法都被提出来解决人体运动预测问题。现有的基于CNN的方法将一个姿态序列视为以一个二维的矩阵,其中一个轴是空间轴,另一个轴是时间轴,然后二维的时空卷积滤波器可以被用于姿态数据就像在图像中所做的那样。然而,姿态数据,基本上,是和图像非常不同的,它缺少给同一个滤波器高反应的重复元素,因此减少卷积的有效性。尽管基于RNN的方法在处理时间相关的任务上有着巨大的优势,不连续性和错误累计问题经常发生,由于是逐帧的预测模式。此外,训练RNN模型也容易伴随梯度爆炸或梯度消失塌陷。更多的是,这些网络忽视了帧内关节点之间的骨骼依赖、生成对抗网络被认为生成真实的数据,它的模式是与训练数据非常像的。不过,他们很脆弱,并且要求有经验的训练。基于Transformer的网络被认为可以直接捕捉长期时序依赖但通常都要求高计算开销。

图卷积网络(GCNs)非常适合非网格和图结构的数据,如生物基因、点云、人类社交网络。他们被成功地应用在如视觉识别、物体检测、动作定位、轨迹预测和图像字幕上。特别地,由于图卷积更倾向于捕捉空间信息,Si等人将它与LSTM相结合来增强它建模时间依赖的能力。33等工作允许图卷积网络学习任意两个关节点之间的依赖。Mao等人设计了一个全连接GCN来自适应地学习必要的连接并用一个离散余弦变换来处理时间信息。Cui等人在全连接图的所有边中增强了人体关节点的天然连接性的角色。Li等人提出了一个图神经网络用一个多尺度图计算单元,其中特征在单个独立尺度被提取并在所有尺度融合。不同地,我们使用不同尺度的GCN来分别提取这些尺度的特征。

3、方法

人体姿态预测是一个给定现有观察帧预测未来姿态序列的任务。假设历史姿态是X1:Th = [X1, ..., XTh]∈R(J*D*Th),有Th帧,其中Xt描述一个单个的3D人体姿态,有t时刻的J个D维空间的关节点(其中D等于3)。相似地,有Tf帧的未来姿态序列被定义为XTh+1:Th+Tf。我们需要一个模型Fpredict(·)来在给定X1:Th时预测未来未知的姿态序列X_hat Th+1:Th+Tf,它要尽可能接近真值XTh+1:Th+Tf。我们通过提出一个新颖的多尺度残差图卷积网络(MSR-GCN)来完成这个任务,如图3所示。

接下来,基本的用于预测姿态的GCN模型被首先介绍,然后用于获取优越预测准确率的多尺度架构被展示。

3.1 基本的GCN

首先,我们换种方式表达我们的预测目标,通过重新排列输入和输出姿态序列。我们不是基于X1:Th来进行预测,而是复制了最后一个姿态XTh Tf次,获得一个长度为T=Th+Tf的序列。然后我们使用这个序列作为输入来预测包含X_hat 1:Th和X_hat Th+1:Th+Tf的未来姿态序列。根据文献33,这个预测任务可以被翻译为计算X_hat 1:T和真值X 1:T之间的一个残差向量,这被我们发现可以非常有效地提升预测准确率。

对于姿态预测,已经被证明建模姿态的空间结构是非常有用的[33,7]。这是因为人体关节点之间的空间依赖展示了隐含且一致的特征在整个动作周期,这对于人体姿态预测是非常重要的。可以被使用的依赖不限制在有运动链的关节点上比如手肘和手腕之间,而是任何一对能互相影响的关节点之间。比如,当人行走时,手周期性地摇摆,所以探索两个手之间地依赖对于他们的预测是非常重要的。GCN[22]擅于发现这些依赖,通过将一个姿态视作一个有K的节点的全连接的图,其中K=J×D,以及一个邻接矩阵A∈R K×K,它表示图中边的强度被GCN所学习。

一个GCN通常由一组顺序堆叠在一起的图卷积层所组成。形式上,让H_l ∈ R K×F_l 作为图卷积层的输入,A_l ∈ R K×K是邻接矩阵,W_l ∈ R F_l×F_l+1是可学习的参数,图卷积层的输出是:H_(l+1) = σ(A_l*H_l*W_l),其中H_(l+1)∈R K×F_(l+1),其中σ(·)是激活函数。

为了将输入姿态序列映射到输出姿态序列,我们设计了一个起始GCN,一个结束GCN和6个残差GCN,结构如图2所示。起始GCN有两个图卷积层,将输入姿态序列从R K×T空间映射到R K×F空间,本文中F=256。接下来是6个残差GCN每个包含两个图卷积层,接受R K×F空间的特征并且也输出同样空间中的特征。最后,结束GCN,也包含2个图卷积层,将R K×F空间的特征映射到R K×T空间的目标姿态序列。整个网络学习输入和输出姿态序列之间的残差余弦向量,通过添加一个全局的跳跃连接,如图2所示。

注意到上述的带有基本GCN的姿态预测网络非常像文献33中提出的方法,除了离散余弦变换(DCT)和逆离散余弦变换,它们是用来数据表征转换的。在这篇文章中,我们抛弃了DCT变换因为不用DCT系数直接计算填充后输入姿态和输出姿态的全局残差已经足够高效,而且计算上也更有效率。接下来,我们展示图2中的基本架构如何可以被进一步的提升,通过利用人体姿态的多尺度性质。

3.2 多尺度残差GCN

直觉上,一个人体姿态可以被一步步简化来获取一些列从细到粗的姿态。随着粗糙尺度的增加,姿态的运动会逐渐变得更稳定,这意味着在这个尺度的姿态预测比细尺度的姿态预测更容易。这激励我们提出一个多尺度残差图卷积网络(MSR-GCN),在其中我们首先在粗粒度层次预测,然后一步步去更高的层次。如图3所示。我们的MSR-GCN是由四种GCN组成:一个起始GCN,一系列递减和递增的GCN块,一系列结束或解码GCN。

在引入MSR-GCN之前,让我们先描述如何抽象一个人体姿态。如图1的最左侧图片所示,最细的姿态有22个关节点。我们递归地抽象最细的姿态来获取分别由12、7和4个关节点的3个姿态。图1第二行中的子图描述如何结合在最细层的关节点,同时在第一行的子图展示了相应地在下一层获取的姿态。注意到我们也试过其他组合方法,但发现这个模式产生在粗层次最稳固的运动(详见4.4节的比较)。

起始GCN 由两个卷积层组成,将输入姿态映射到特征空间。如上定义姿态空间是R K×T,特征空间是R K×F其中F=256。我们使用最细粒度的姿态序列作为起始GCN的输入,而其他尺度的姿态序列仅仅被用在结束GCN来计算残差。

递减和递增的GCN块。因为我们在四个层次抽象了人体姿态,我们使用四个递减和四个递增的GCN块,名叫D0,D1,D2,D3和A3,A2,A1,A0,来抽取四个尺度的特征。这些GCN块的每一个都将残差GCN循环6次,并且每一个GCN都有两个图卷积层。这八个GCN块按顺序堆叠在一起。沿着整个递减和递增路径,特征维度F始终保持在256,但姿态维度K在相邻的递减和递增块之间改变。例如,D0提取在空间R K0×F中的特征,其中K0=22×3=66,而K1=36,K2=21,K3=12对于D1,D2,D3。我们使用一个下采样层来将D0输出的特征转换到R K1×F空间中。递减的块逐步缩小姿态维度,然后被递增的块逐步使用上采样层来增大。我们将通过一个递减的GCN块和相应的递增GCN块的提取的特征拼接在一起并将它们传递给结束GCN来解码。

结束GCN 用来解码拼接的通过递减和递增块提取的特征为姿态。就像起始GCN,结束GCN也由2个图卷积层组成。但不同的是我们不仅用一个起始GCN,我们设计了四个结束GCN,名叫E0,E1,E2,E3来分别解码不同尺度的组合特征。通过计算所有尺度上解码的姿势和它们真值之间的L2距离的中间监督被用来训练整个网络,这在许多工作中是普遍被采用的策略。消融实验展示了使用中间监督,可以获得更准确的预测,我们推断这是由于它有助于在粗层次提取更有表征力的特征并且强迫整个网络学习从粗到细尺度的预测。E0的输出是预测的目标姿态序列。

残差连接。除了在递减和递增GCN中的残差连接,我们在每个结束GCN后都添加了一个残差连接。这就是说我们添加了输入姿态序列(不同尺度的)到结束GCN的输出上。通过这种方式,MSR-GCN学习所有层次输入和真值之间的残差向量。

3.3 实现细节

我们选择Adam作为优化器,初始学习率是2E-4,每两个epoch衰减0.98,并且在3090 GPU上训练整个网络。

4 实验

为了验证MSR-GCN的有效性,我们在两个标准基准运动捕捉数据集上进行了实验,包括H3.6M数据集和CMU Mocap数据集。这里我们首先引入两个数据集,评估指标和我们比较的基线,然后展示实验结果和消融分析。

4.1 数据集设置

H3.6M数据集包括7个被试者S1,S5,S6,S7,S8,S9和S11,并且每一个包含15个动作分类。我们将原始数据从expmap格式转换为3D关节点坐标空间,沿着时间轴将原始姿态序列下采样2倍,并且从单个姿态的原始32个关节点中选择22个人体关节点。类似34,27,33,我们使用S5的数据和S11的数据分别用做测试和验证集。我们在递减和递增部分使用4个尺度,分别包含22,12,7和4个关节点。

4.2 比较设置

指标。平均各关节点位置误差(MPJPE)以mm作为单位是用得最广泛的评估指标。假定预测姿态序列是X_hat 1:T并且相应的真值是X 1:T,MPJPE损失的计算公式如下:(略)。其中p_hat j,t∈R^3表示t帧预测的第j个关节点的位置,p j,t是相应的真值。

基线。我们将我们的方法与三个sota基线相比较,也即分别是Residual sup,DMGNN和Traj-GCN。Residual sup是基于RNN的,剩下的两个是基于GCN的。特别地,DMGNN建立了一个动态的多尺度图卷积神经网络,Traj-GCN将原始数据从3D坐标空间变换到频率空间。

随机测试批次 vs. 全测试集。所有比较的三个工作,都只在一个随机选择的大小为8的批数据上进行了评估,对于每个动作类别。我们认为这样小的测试数据是不足以准确评估所比较方法的性能的。这在文献35中也被质疑了。为了避免这个问题,我们修改了他们公开的代码并重新训练了网络来使用整个测试数据集在3D坐标空间来评估MPJPE。先前工作使用相同评估方法的实验结果也可以在附加材料里被找到。

统一输入和输出长度。34、27的方法要求50个历史观测姿态来预测25个未来姿态,同时33只用10个姿态预测25个未来姿态。这个文章中的所有实验都遵循文献33的方法。

4.3 结果

为了验证MSR-GCN的预测表现,我们展示了MSR-GCN在H3.6M和CMU-Mocap上400ms短期和1000ms长期预测的定性和定量结果,并且将MSR-GCN和SOTA方法进行了比较。

在H3.6M上的结果。短期和长期预测结果的定量比较分别在表1和表2中展示出来了。很明显,这三个基于GCN的方法都比基于RNN的方法Residual sup要好很多,这也验证了GCN用于人体运动预测的有效性。在三个基于GCN的方法中,Traj-GCN比DMGNN更好,而MRS-GCN比Traj-GCN更好,整体上讲。为了有个更直观的比较,我们在图4画出了在所有种类动作在所有不同预测时间上的平均预测误差,它明显地显示出MSR-GCN要优于所比较地三个方法。图5展示了不同方法预测姿态地一个示例。在这个示例中,随着预测时间的增加,MSR-GCN变得比其他所有方法的结果都要好。

CMU Mocap的结果。相同的比较也在CMU Mocap数据集上进行了,如表3和表4所示。MSR-GCN在所有短期预测时间上获得了最好的平均性能。对于长期预测,比如预测1000ms的帧,MSR-GCN在四种动作上达到最好的结果。对于其他动作,我们方法的预测误差总是第二好的且非常接近最好的。

性能增益分析和推理。上述结果表明MSR-GCN超出所比较的方法。在这里,我们详尽地解释原因以及性能增益地源头。

首先,在实验中,我们发现推理输入和输出姿态间的残差比预测目标姿态容易很多。表5中CMU数据集上的平均误差表明全局残差引起了瞩目的性能增益,对于Traj-GCN和我们的MSR-GCN来说都是。然而,我们的没有全局残差的方法仍然明显的超出其他没有全局残差的基线方法,表明我们模型设计的重要性。

第二,我们将我们的方法与Traj-GCN、不带DCT的Traj-GCN和一个我们方法的单尺度版本名叫MSR-GCN-1L在CMU数据集上进行了比较。如表6所示,DCT引起的性能增益是0.55,而我们多尺度策略的信息增益是3.15,显示出我们多尺度架构的有效性。

第三,我们检查了对于每个关节点MSR-GC相对于Traj-GCN的信息增益,发现最大的信息增益是对于肘关节点获得的,如图6所示更深的红色表明更高的性能增益。由于轴关节点通常又更高的运动频率,这张图指示了我们的方法可以更好地处理高频率运动。

更多的分析可以在补充材料中找到。

4.4 消融实验

我们所提出模型的几个关键元素的影响,例如尺度层次的数量,中间监督损失,残差GCN和多尺度聚合方式,在CMU Mocap数据集上被研究来提供一个对我们方法的更深的理解。我们修改了MSR-GCN来获得五个它的消融变种:(1)不带中间损失的MSR-GCN,(2)MSR-GCN-3L:带有3个姿态尺度的MSR-GCN,(3)和(4)MSR-GCN-2L和MSR-GCN-1L分别是带有两个尺度和一个尺度的,(5)MSR-FCL:将残差GCN替换为残差全连接层。

多尺度结构的影响。为了研究所提出的架构的多尺度机制的有效性,我们在三个尺度、两个尺度和一个尺度上的变种进行了实验。比较的结果在表7中展示了。请看对应MSR-GCN、MSR-GCN-3L、MSR-GCN-2L和MSR-GCN-1L的行。在大多数情况下,MSR-GCN是最好的,接下来是MSR-GCN-3L,MSR-GCN-2L和MSR-GCN-1L。例如,对于跑步动作,四个变种在320ms的预测误差分别是30.58,35.87,38.95和39.06。这些实验证实了我们多尺度架构的有效性。

中间监督的影响。中间损失的影响是通过移除MSR-GCN中第二、第三和第四个尺度的结束GCN来分析的。请看图7中对应于MSR-GCN和不带内部损失的MSR-GCN的两行来比较两个变种。在大多是情况下,MSR-GCN都比不带内部损失的MSR-GCN更好,这证实了中间监督的必要性。尽管在走路和跳跃动作上有些例外,在不同变种之间的区别是很小的。

残差GCN的影响。我们将所有的残差GCN替换为由残差全连接层组成的普通网络来分析残差GCN的影响。请看表7中对应MSR-GCN和MSR-FCL的两行。实验结果表明MSR-GCN比MSR-FCL好出一大截。这强烈地验证了GCN对于高质量姿态预测的重要性。

不同多尺度组合方式的影响。默认地,我们将人体关节点按照图1所示的方式组合,对于H3.6M的骨骼来说。对于CMU的默认的组合方式可以在附加材料中被找到。在表8中,我们在CMU数据集上测试了我们方法用不同组合策略的性能,包括25-10-5-3意思是在最细的粒度有25个关节点以及在最粗的尺度有3个关节点(请参考附加材料查看认为指定的关节点组合),以及默认的25-12-7-4的三个随机组合。结果表明我们默认的组合方式产生更好的平均结果。

5、结论

在这篇文章中,我们建立了一个多尺度残差图卷积网络来从观察历史中有效预测未来人体运动。损失被添加到所有尺度上来提供中间监督。我们使用了一个短的10帧的观察历史姿态序列来作为输入来预测未来25帧。我们在整个测试数据集上测试并与之前sota方法比较了所提出的方法。我们的方法在两个标准基准数据集上超过了sota方法。我们将在未来进一步探索多尺度组合方式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值