论文连接:https://arxiv.org/pdf/1912.05656.pdf
代码连接:https://github.com/mkocabas/VIBE
图1:给定具有挑战性的野外视频,最近最先进的视频姿态估计方法 31无法产生精确的3D身体姿态。为了解决这个问题,我们利用一个大规模的运动捕捉数据集来训练一个使用对抗方法的运动鉴别器。我们的模型(VIBE)(底部)能够产生真实和准确的姿势和形状,在标准基准上优于以前的工作。
摘要
人类的运动是理解行为的基础。尽管在单图像3D姿态和形状估计方面取得了进展,但是由于缺乏用于训练的真实3D运动数据,现有的基于视频的最先进的方法不能产生精确和自然的运动序列。为了解决这个问题,我们提出了“人体姿态和形状估计的视频推理”(VIBE),它利用了现有的大规模运动捕捉数据集(makes)以及不成对的、在野外的2D关键点注释。我们的主要创新是一个对抗性的学习框架,它利用MASTER来区分真实的人类运动和那些由我们的时间姿势和形状回归网络产生的运动。我们定义了一个新的具有自我注意机制的时间网络结构,并证明了在序列水平上的对抗训练,产生了运动学上似是而非的运动序列,而没有在野外的地面真实3D标签。我们进行了广泛的实验来分析运动的重要性,并展示了VIBE在挑战性的