作者
![ff29ac522b7def93b911aa9d48fef9ab.png](https://img-blog.csdnimg.cn/img_convert/ff29ac522b7def93b911aa9d48fef9ab.png)
介绍
人体的运动对于理解人类的行为是非常重要的。虽然目前基于视频的SOTA方法在单幅图像的三维姿态和运动估计方面已经取得了一定的进展,但由于缺乏真实的三维运动数据进行训练,因此不能产生准确、自然的运动序列。为了解决这一问题,本文提出了一种利用现有的大规模运动捕获数据集(AMASS)和未配对的二维关键点标记数据进行人体姿态和形状估计的视频推理(VIBE)方法。
本文的主要创新之处在于它是一个对抗性学习框架,它利用大量的数据集来区分真实的人类行为和本文中使用时间姿势和动作回归网络生成的行为。本文定义了一种时间序列网络结构,并证明了该结构可以在没有真实3D标签的情况下生成序列级合理的运动序列。本文进行了大量的实验,分析了运动的重要性,并证明了VIBE在一个非常具有挑战性的3D姿态估计数据集上的有效性,以实现SOTA性能。
![ccd4bccebff80485317698aaedec26ef.png](https://img-blog.csdnimg.cn/img_convert/ccd4bccebff80485317698aaedec26ef.png)
如图上图所示,现有的视频位姿和运动估计方法无法产生真实合理的预测结果。其主要原因是缺乏对数据的三维标注,对于单个图像更难以获取,对于视频更是如此。一些先前的研究工作,他们将室内三维数据集与视频结合起来ÿ