- 3D Human Motion Estimation via Motion Compression and Refinement[1]
- 一个两阶段的基于视频的3d人体motion estimation。
- 本文是在VIBE[2]的基础上做的,文章指出之前所提出的方法的衡量指标是MPJPE,只是强调空间上的准确性,忽略了temporal smoothness,所以VIBE在进行可视化的时候会发现“jitter”的存在。下图用加速度误差这个指标衡量了temporal smoothness,可见本文的方更平滑,同时最后论文结果MPJPE也更低。
2. Acceleration error,加速度误差:用来衡量3d joints的平滑性,计算代码如下,来源于[3]
3. story
- 本文指出,由于people share相同的人体结构(就是都使用了SMPL人体模型),所以it is possible to learn a generalized kinematic model that can be matched against the image to infer the general motion of a person. However, since generalized models of motion can also fail to model person-specific motions, it may also be necessary to ‘add back in’ or refine the general motion estimates using image evidence。(这就是介绍为啥本文要设计成两个阶段,而不是一个阶段)。第一阶段得到一个coarse kinematic sequences of a person in a video,第二阶段是一个残差结构,把第一段的结果和原始特征concat到一起,迭代refine得到一个精细的结果,这样最后结果就能有准确,又smooth。这里准确容易理解,smooth的话下面详细的说一下。
- smooth:文章先说了一下以前是怎么解决smooth问题的如下图原文
最后也指出了仅仅把smooth的先验用到loss function是很难找到准确性和smooth的balance。本文使用了Variational Autoencoder (VAE不熟悉VAE的可以自行补课)。就是先在AMAAS上训练VAE,VAE的作用是什么呢就是学到AMAAS上包含的人体motion的准确性和smooth,就是训练好的VAE能encode到smooth这个信息。但是AMAAS数据中包含的动作有限,所以会遇到其他动作,这就需要第二部refine的操作得到最终又准确又smooth的结果。
。