这些年基于骨骼框架的人体动作生成的研究取得了进步和发展。其中最成功的方法是把人体的骨骼中的关节点当做图片的一个像素,把动作中的一帧当做一个图片,把整个动作序列当做视频进行处理。但是这样做并没有考虑到人体结构的丰富的信息。这种以视频的方式去生成人物动作的模型会使得人物在生成的过程中产生扭曲。
图神经网络(graph neural networks)可以把人体的骨骼作为一个固定的图。但是现在的图神经网络并没有处理连续的图数据的能力。这就使我们面临了一个严重的问题:我们改如何构建一个图神经网络,可以更有效的处理时间和空间结构上的信息?
之前的方法
Learning Diverse Stochastic Human-Action Generators by Learning Smooth Latent Transitions 这篇文章结合了GAN和RNN生成了人物动作。但是他们就是单纯地把人物动作的序列当做视频去处理了。
图神经网络(GCN)的方法:
一般来说,用图神经网络的方式来为人物动作序列构建图的时候,我们有下面两种方法:
- 全连接形式:这种方式把整个人物动作序列当做一幅图。这种方法把每一帧的人物的骨骼的节点与上一帧的骨骼的对应节点相连接,这样整个时间序列的人物动作序列都练成了一整幅图。但是这种处理的方法计算效率非常低。此外,这种方式高度冗余,因为相邻帧之间人物动作差别非常小。
- Spatial-temporal graph convolutional networks[4]:这种方式先在每一帧内进行图卷积(graph convolution),提取出每一帧的特征。然后在帧与帧之间进行一维卷积。这种方法在时间维度上通常需要节点间共享权重。而且如果时间