本文将为大家介绍Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset(Motion-X:大规模人体动作数据集),代码已开源。
-
Title:
Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset
-
Paper:
https://arxiv.org/abs/2307.00818
-
Code:
https://github.com/IDEA-Research/Motion-X
01 /导读/
Motion-X,一个大型的3D全身动作数据集。现有的动作数据集包含仅有身体姿势的数据,缺乏面部表情、手势和精细的姿态描述,此外,它们主要采集于受限的实验室场景,并手动标注文本描述,这极大地限制了数据集的规模。为了克服这些限制,本文开发了一个whole-body motion和text标注管线,它可以自动从单视角或多视角视频中标注motion,并为每个视频提供全面的语义标签和每个帧的精细化的全身姿态描述。这个管道具有高精度,低成本,可扩展性。基于这个管道,本文构建了 Motion-X,它包括了13.7M个精确的3D全身姿势标注(即SMPL-X),覆盖了来自大规模场景的96K个动作序列。此外, Motion-X 还提供了13.7M帧级别的全身姿态描述和96K个序列级别的语义标签。大量的实验表明,注释管道的准确性以及 Motion-X 在增强表达性、多样性和自然运动生成以及3D全身人体网格恢复方面的显著效益。
02 /引言/
人体动作生成旨在自动合成自然的人体动作。它在机器人、动画、游戏和生成创作等方面具有广泛的应用。在给定文本描述或音频指令的情况下,运动生成可控制以获得所需的人体运动序列。近年来,基于文本的运动生成因其更加自然互动的方式而受到越来越多的关注。
虽然现有的文本-动作数据集已大大促进了运动生成的发展,但它们的规模性、多样性和表现能力仍然不尽人意。想象一下生成“一个男人正在快乐地弹钢琴”(如下图(a)所示),现有数据集中的运动仅包括身体运动,没有手指运动或面部表情。缺少手势和面部表情严重阻碍了运动的高度表现力和逼真度。此外,某些专业动作,例如高级滑雪、空中作业和骑行在室内场景中很难被捕捉。总之,现有的数据集存在四个主要局限:
1)仅包含身体运动,缺乏面部表情和手指姿势;
2)多样性和数量不足,只涵盖室内场景;
3)缺乏各种各样的长期运动序列;
4)手动文本标注不具规模性、专业性,而且是劳动密集性的。
这些局限性影响了现有方法合成具有不同动作类型表现的全身动作。因此,如何从多种情景中收集大规模的全身动作和文本注释是解决数据稀缺问题的关键。
与室内基于标记的动作捕捉系统相比,无标记的基于视觉的动作捕捉方法在从大量视频中捕获大规模动作方面变得更有前途 。同时,人体运动可以被视为连续的运动结构序列,可以使用基于规则的技术自动转化为姿势脚本。更重要的是,尽管无标记捕捉(例如,假标签)的精度不如基于标记的方法,但收集大量和信息充分的运动(尤其是局部运动)仍是有益的。此外,文本驱动运动生成任务需要语义对应的运动标签而不是顶点对应的网格标签,因此具有更高的运动捕捉误差容忍度。
考虑到这些因素,本文设计了一