论文: Long-Term Human Motion Prediction by Modeling Motion Context and Enhancing Motion Dynamic
论文地址: https://arxiv.org/pdf/1805.02513.pdf
作者针对很多模型长期预测方面的不足,提出了一种新的模型改进人体运动的长期预测。通过motion context总结之前所有的mocap数据,为长期预测提供更丰富观测到的证据。此外,作者的模型具有能根据行动命令改变运动类型之后继续生成预测值的能力,不再限制于预测一个序列只存在一种类型的运动。
Table of Contents(目录)
Background (论文背景)
LSTM & GRU
作者提到在很多模型里RNN结构中选用了LSTM或者GRU,虽然它们的应用是为了得到历史信息,尤其是长期的,但是由于RNN的结构需要不断encode然后更新hidden state,当前时间点的input将会大幅改变hidden state从而发生信息的丢失。在长期预测中,会导致mean pose的问题。如图中LSTM-3LR以及Res-GRU的预测值。
Modified Highway Unit (MHU)
作者发现大多模型对于mocap数据中所有的人体关节结点作为整体被对待,但是实际上并非所有关节都参与了某种运动。所以作者提出了MHU单元,通过gate在每次生成预测值时过滤掉静止的关节结点。将在Methodology中详细说明。
Gram Matrix Loss
作者提出为了能更好的训练模型对于运动动态的敏感度以及能生成在时间上相关性很高的预测值,选用了gram matrix loss。也将在Methodology中详细说明。
Methodology(实现方法)
Network Structure(模型结构)
模型总体分为两层:Skeleton Embedding Layer和Recurrent Prediction Layer,总体也是encoder-decoder的结构。
Skeleton Embedding Layer
这层layer的作用在于encode,将mocap数据encode得到semantic space yielding。