数字人制作原理:捕捉、建模与合成

在感知系统中,我们与外部合作者一起创建逼真的 3D 人类,其行为可以像虚拟世界中的真实人类一样。这项工作在今天有许多实际应用,并且对于元宇宙的未来至关重要。但是,在感知系统中,我们的目标是科学的——通过重现人类行为来理解人类行为。

“我无法创造的东西,我就不明白。”理查德·费曼

我们在新环境中感知行为的能力对于我们的生存至关重要。如果我们能够在虚拟人类中重现这种能力,我们将拥有一个可测试的自我模型。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

我们的方法具有三个相互关联的支柱:捕获、建模、合成。我们的方法首先捕捉人类、他们的外表、他们的动作和他们的目标。利用这些捕获的数据,我们对人们的外表和行动方式进行建模。最后,我们在 3D 运动场景中合成人类并评估他们的真实程度。

我们的 ICCV 2021 论文提供了这种方法和当前技术水平的精彩快照。我将尝试将它们放在下面的上下文中。

1、捕获

为了了解人类,我们需要捕捉(Capture)他们的形状和动作。在捕获过程中,总是需要在数据的质量和数量之间进行权衡。在实验室中,我们可以捕获精确、高质量的数据,但数量始终有限。因此,我们也在野外进行捕捉,并不断开发新方法来从图像和视频中估计人体姿势和形状 (HPS)。在 ICCV,我们有使用这两种方法的论文。

1.1 实验室捕获

论文: Solving SOMA: Solving Optical Marker-Based MoCap Automatically

捕捉人体动作的“黄金标准”是基于标记的动作捕捉 (mocap)。为了发挥作用,动作捕捉流程将原始、稀疏的 3D 点云转换为可用数据。

第一步是通过将 3D 点分配到人体上的特定标记位置来清理和“标记”数据。标记后,人们就可以“解决”引起运动的身体。捕获大量动作捕捉数据的一个关键障碍是标记过程,即使采用最好的商业解决方案,仍然需要手动干预。被遮挡的标记和噪声会引起问题,特别是当人们使用新颖的标记集或人类与物体交互时。

在 ICCV,我们通过 SOMA 解决了这个问题,它采用原始点云并使用基于 Transformer 的堆叠注意力机制自动对其进行标记。该方法可以纯粹基于合成数据进行训练,然后应用于具有不同数量点的真实动作捕捉点云。

使用 SOMA,我们能够自动将 SMPL-X 身体拟合到以前从未处理过的原始动作捕捉数据,因为它太耗时了。我们已将其中一些数据添加到 AMASS 数据集中。

论文:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值