数字人解决方案——3D数字人从捕捉到建模与合成方法解析

0.引言

在感知系统中,我们与外部合作者携手打造逼真的3D数字人类,这些虚拟角色的行为模式旨在模仿现实世界中的真实人类。这项技术在当今拥有广泛的实际应用,并且对于构建元宇宙的未来具有关键性的意义。然而,在感知系统领域,我们追求的目标是科学性的——我们致力于通过模拟人类行为来深入理解人类行为的本质。

我们感知并适应新环境中行为的能力对于生存至关重要。如果我们能够在虚拟人类中复制这种能力,我们将拥有一个可测试的自我模型,这将极大地推动我们对人类行为认知的科学研究。

我们的方法建立在三个相互关联的支柱上:捕获、建模和合成。首先,我们捕捉人类个体,包括他们的外貌、动作和目标。接着,我们利用这些数据对人们的外形和行为模式进行深入建模。最终,我们在三维动态场景中合成人类形象,并对他们的真实性进行评估。

我们在ICCV 2021上发表的论文提供了这种方法和当前技术发展水平的精彩概览。我将尝试将这些研究成果置于更广阔的研究背景之中,以展现其深远的影响和潜在的应用前景。通过这种方法,我们不仅能够推动计算机视觉和人工智能领域的发展,还能够为理解人类行为提供新的视角和工具。

1、捕获

为了深入理解人类,我们必须精确捕捉他们的形状和动作。在捕获数据的过程中,我们常常面临质量和数量之间的权衡。在实验室环境下,我们可以获取到精确且高质量的数据,但这些数据的数量往往受限。为了克服这一限制,我们在现实世界中进行捕捉,并且不断地开发创新的方法,从图像和视频资料中估计人体姿势和形状(Human Pose and Shape, HPS)。在国际计算机视觉会议(International Conference on Computer Vision, ICCV)上,我们展示了结合这两种方法的研究成果。这些论文不仅展示了我们技术的进步,也体现了我们对于提升数据捕获广度和深度的不懈追求。

1.1 实验室捕获

论文:Solving SOMA: Solving Optical Marker-Based MoCap Automatically

捕捉人体动作的"黄金标准"是利用基于标记的动作捕捉技术(mocap)。这种技术的核心在于将原始的、分散的3D点云数据转化为可供分析和应用的数据集。

这一过程的首要步骤是对3D点进行清理,并将其与人体模型上预设的特定标记点相对应,这一过程称为"标记"数据。一旦数据被正确标记,研究者和开发者就能够进一步"解读"背后的人体运动学,从而理解并重现人体的动态行为。

然而,获取大量高质量的动作捕捉数据面临着一个主要障碍,那就是标记过程本身。即便采用了最先进的商业解决方案,这个过程仍然需要人工介入以确保数据的准确性。在标记过程中,被遮挡的标记点或数据中的噪声都可能成为问题,尤其是当使用非传统的标记配置,或者在人体与物体发生交互的场景中,这些问题会变得更加突出。解决这些挑战对于实现高效、自动化的动作捕捉至关重要。

在ICCV会议上,我们提出了一种创新的解决方案,名为SOMA,它能够应对动作捕捉中的标记问题。SOMA技术直接处理原始的3D点云数据,并运用基于Transformer的堆叠注意力机制来自动完成数据的标记工作。这一方法的一个显著优势在于,它可以仅依赖合成数据进行训练,随后直接应用于真实世界中的动作捕捉点云,即使这些点云的点数量可能有所不同。

通过使用SOMA,我们实现了自动化流程,能够将SMPL-X人体模型自动拟合到那些未经处理的原始动作捕捉数据上。这在以往是极为耗时的工作,但现在我们可以通过自动化的方式大大提高效率。为了进一步推动该领域的研究和应用,我们将部分经过处理的数据集成到了AMASS数据集中,这是一个公开的多模态人体动作捕捉数据库,为学术界和工业界提供了宝贵的资源。通过这些贡献,我们不仅优化了动作捕捉的工作流程,也为人体动作理解的研究提供了新的工具和数据支持。

论文:Tofu:Topologically Consistent Multi-View Face Inference Using Volumetric Sampling

同样,面部捕捉数据对于构建真实的人类模型至关重要。与动作捕捉不同,人们通常捕捉密集的 3D 面部几何形状。变得有用,例如对于机器学习,原始 3D 面部扫描需要在称为配准的过程中与模板网格对齐。使用传统方法进行注册可能会很慢且不完美。

在 ToFu(多视图拓扑一致的面)中,作者描述了一个推断 3D 几何结构的框架,该框架使用体积表示生成拓扑一致的网格。这与之前基于 3D“可变形模型”的工作不同。 ToFu 采用了一种新颖的渐进式网格生成网络,该网络将“面部的拓扑结构嵌入到特征体积中,从几何感知的局部特征中采样”。 ToFu 使用从粗到细的方法来获取细节,并且还“捕获孔隙级几何细节的位移图”。

1.2 真实捕获

论文:PARE: Part Attention Regressor for 3D Human Body Estimation

为了捕捉比实验室条件下更复杂、更真实的人类行为,我们必须能够在2D视频中准确地追踪3D人体动作。尽管人体姿势和形状估计(Human Pose and Shape, HPS)领域已经取得了迅猛的发展,但现有的HPS方法在面对遮挡问题时仍然显得相当脆弱。

在我们的PARE研究中,我们提出了一种新颖的可视化技术,它能够直观地展示现有方法对于遮挡的敏感性。通过这项技术,我们得以观察并分析出即使是小幅度的遮挡也会对人体姿势的估计产生持续的影响。这一发现对于理解现有技术的局限性至关重要,并为未来改进算法提供了宝贵的见解。

我们的工作强调了在复杂环境中进行人体行为分析时需要考虑的新挑战,并指出了未来研究的方向,即开发更加鲁棒的算法来处理遮挡问题,以及提高在现实世界条件下的人体动作捕获的准确性。通过这些努力,我们能够更进一步地推动人体动作理解和行为分析技术的发展,为虚拟环境和增强现实等领域的应用奠定基础。

论文:SPEC: Seeing People in the Wild with an Estimated Camera

鲁棒性对于处理遮挡问题至关重要,但它并不是提高人体姿势和形状估计(HPS)准确性的唯一考量因素。现有的HPS方法往往基于简化的弱透视相机模型,它们在相机坐标系中进行3D主体的估计。这种方法在处理具有显著透视缩短的图像时容易遇到难题,而这种情况在人物摄影中极为常见。

为了应对这一挑战,我们开发了SPEC系统,它采用透视相机模型,并在世界坐标系中进行人体姿态的估计。SPEC的训练和设计考虑了真实世界场景中的复杂性,特别是在处理透视效应时,能够提供更为精确的3D人体姿态和形状估计。

通过在世界坐标系中进行估计,SPEC能够更准确地反映人体在三维空间中的真实姿态和形状,有效解决了透视缩短带来的问题。这一创新的方法不仅提升了HPS技术在复杂环境中的适用性,也为未来在更广阔领域的应用打开了新的可能性。

我们的研究进程的第一步是构建一个包含精确相机参数的渲染图像数据集。利用这个数据集,我们训练了一个名为CamCalib的深度学习网络,该网络能够从单张图像中准确回归出相机的视场、俯仰角和翻滚角。

在CamCalib的基础上,我们进一步训练了一个新的人体姿势和形状(HPS)回归网络。这个网络将相机参数与图像特征相结合,利用这些信息来精确估计人体的3D形状和姿势。这种方法在如3DPW等数据集上展现出了显著的准确性提升。

为了进一步推动这一领域的发展,我们还推出了两个新的数据集,它们包含了精确的姿势标注和具有挑战性的相机视角。SPEC-MTP数据集借鉴了CVPR’21 TUCH论文中提出的“模仿姿势”概念,我们不仅捕捉真人的动态,还将这一概念扩展到了相机校准的领域。而SPEC-SYN数据集则采用了AGORA数据集的渲染技术,但设计了更具挑战性的相机姿势,这些姿势能够引发显著的透视缩短效果,为HPS估计提供了更丰富的测试场景。

通过这些创新的数据集和网络架构,我们不仅提高了HPS方法的准确性和鲁棒性,还为未来在更复杂环境中应用这些技术奠定了坚实的基础。

论文:Learning To Regress Bodies From Images Using Differentiable Semantic Rendering

在训练 PARE 和 SPEC 等 HPS 回归器时,我们通常依赖 2D 图像关键点,有时依赖 3D 关键点或 HPS 参数。图像中还有更多信息,但尚未被利用。例如,当前的 3D HPS 模型“穿着最少”,但真实图像中的人通常穿着衣服。在这里,我们展示了了解图像中的服装可以帮助我们训练神经回归器,从而更好地估计 HPS。

关键思想是在训练期间利用有关服装的信息。例如,在身体显示皮肤的区域中,我们期望身体与图像轮廓紧密贴合。然而,在有衣服的区域,我们希望身体适合在衣服区域内。

我们使用 Graphonomy 将输入图像分割为服装区域,但我们如何将身体与服装联系起来?为此,我们再次利用 AGORA 数据集。

具体来说,我们计算 AGORA 中所有 3D 穿着身体的语义服装分割,并将其投影到地面实况 SMPL-X 身体的 3D 网格上。由此,我们学习了一个简单的每个顶点先验,它捕获每个顶点被每个服装标签标记的可能性。然后,我们定义新的损失,利用这一先验来确定穿衣和不穿衣服的区域。当使用服装信息进行训练时,生成的模型比基线更准确,我们发现它可以更好地将身体定位在衣服内。

论文:Monocular, One-Stage, Regression of Multiple 3D People

上述每一篇论文都解决了从 RGB 人体捕获中的一个重要问题,但每种方法都假设已从图像中检测到并裁剪了人物。然后将裁剪后的图像输入神经网络,神经网络对姿势和形状参数进行回归。

SPEC 朝着使用整个图像迈出了一步,因为它使用完整图像来估计相机参数,并利用这些参数来估计裁剪中人物的姿势。但是,我们认为完整图像中包含更多信息,并且这个两阶段过程(检测然后回归)缓慢且脆弱。当图像中存在明显的人与人遮挡时尤其如此。在这种情况下,紧密的边界框可能包含多个人,而没有足够的上下文来区分他们。

相反,在 ROMP 中,我们主张一种处理整个图像的单阶段方法,可以利用完整的图像上下文,并且在同时估计许多人时非常有效。

ROMP 不检测边界框,而是使用像素级表示并同时估计身体中心热图和网格参数图。身体中心热图捕获身体以特定像素为中心的可能性。我们采用一种新颖的排斥术语来处理高度重叠的物体。参数图也是一个像素级图,包括相机和 SMPL 模型参数。然后,我们从身体中心热图进行采样,并从参数图中的位置获取 3D 身体的参数。 ROMP 实时运行并同时估计多人的姿势和形状。我们认为这就是未来——为什么要关注剪短的人呢?我们希望估计场景中的每个人,并允许网络在此过程中利用所有图像线索。

2、建模

捕获数据只是构建虚拟人的第一步。建模(Modeling)采用我们捕获的数据并将其转换为可以控制、采样和动画的参数模型。

我们的建模工作重点是学习人体形状(以及它如何随姿势变化)和人体运动。从形状开始,我们观察到现有的 3D 人体模型(例如 SMPL)基于固定的 3D 网格拓扑。虽然这对于某些问题来说是理想的,但它缺乏表达复杂的衣服和头发的能力。现实的人类化身需要更丰富、更复杂的表现。扩展网格来做到这一点具有挑战性,因此我们一直在探索基于隐式曲面和点云的新方法。

论文:SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes

神经隐式表面方法使用神经网络以连续且与分辨率无关的方式表示 3D 形状。例如,该网络表示占用情况或到身体表面的有符号距离。给定 3D 空间中的任何点,函数(即网络)表示该点是在形状内部还是外部,或者返回到表面的有符号距离。然后,实际表面被隐式定义为函数场的零水平集。由于神经网络非常灵活,它们可以学习穿着衣服的人的复杂几何形状。这很棒,因为它为我们提供了一种从捕获的数据中学习穿着人员的形状模型的方法,而无需绑定到 SMPL 网格。

然而,将这一想法应用于人体等铰接结构并非易事。现有方法学习向后扭曲场,将变形(姿势)点映射到规范点。然而,这是有问题的,因为向后扭曲场依赖于姿态,因此需要大量数据来学习。为了解决这个问题,SNARF 通过在没有直接监督的情况下学习前向变形场,将多边形网格的线性混合蒙皮 (LBS) 的优点与神经隐式曲面的优点结合起来。该变形场是在规范的、与姿势无关的空间中定义的,从而能够泛化到看不见的姿势。仅从姿势网格学习变形场具有挑战性,因为变形点的对应关系是隐式定义的,并且在拓扑变化下可能不是唯一的。我们提出了一种前向蒙皮模型,该模型使用迭代根查找来查找任何变形点的所有规范对应关系。我们通过隐式微分导出分析梯度,从而能够通过骨骼变换从 3D 网格进行端到端训练。

与最先进的神经隐式表示相比,SNARF 可以更好地泛化到未见过的姿势,同时保持准确性。我们在具有各种和看不见的姿势的(穿着衣服的)3D 人类的挑战性场景中展示了我们的方法。

论文:The Power of Points for Modeling Humans in Clothing

我们认为隐式表面令人兴奋,但目前它们有一些局限性。因为它们是新的,所以不能与任何现有的图形技术即插即用,而现有的图形技术在 3D 网格上投入了大量资金。例如,现在你无法在游戏引擎中使用隐式虚拟人类。要使用它们,您必须首先从隐式曲面中提取网格,例如使用行进立方体。我们认为 3D 身体的“最终”模型尚未被发现,因此我们通过探索替代方案来保持我们的选择余地。

例如,一种非常古老且简单的表示方式被证明特别强大——3D 点云。与隐式曲面一样,点云没有固定的拓扑,如果你愿意拥有大量点,则分辨率可以是任意的。此类模型非常轻量级且易于渲染,并且与现有工具更加兼容。但有一个问题:它们本质上是稀疏的,并且表面不明确。经过这些点的 3D 表面是隐式的。这实际上与隐式表面非常相似,可以使用神经网络来学习。

最近有很多关于使用点云来学习 3D 形状表示(例如 ShapeNet 中的表示)的工作。现在有许多深度学习方法可以使用点云学习 3D 形状,但使用它们来建模铰接式和非刚性物体的工作较少。为了解决这个问题,我们创建了一个新的基于点的人体模型,称为 PoP,用于“点的力量”。

PoP 是一种神经网络,采用新颖的局部服装几何特征进行训练,可以捕捉不同服装的形状。该网络根据多种类型服装、多种身体、多种姿势的 3D 点云进行训练,并学习对与姿势相关的服装变形进行建模。几何特征可以进行优化,以适应以前未见过的穿着衣服的人的扫描,使我们能够对一个人进行单次扫描并为其制作动画。这是创建可以插入元宇宙的虚拟人类的重要一步。

论文:Action-Conditioned 3D Human Motion Synthesis with Transformer VAE

为了创造虚拟人类,我们需要将他们的动作建立在语言基础上。也就是说,我们需要将人们如何移动与他们移动的原因联系起来。驱动他们行为的目标是什么?先前关于人体运动合成的许多工作都集中在时间序列预测上。即,给定一系列人体运动,产生更多的运动。虽然很有趣,但这并不是我们需要的核心。我们需要给代理一个目标或一个行动,然后让他们执行此操作。这种表演的长度和表演方式应该是可变的。例如,如果我说“挥手再见”,化身可能会用右手或左手这样做。自然变化是现实主义的关键。

为了解决这个问题,我们训练了 ACTOR,它能够根据动作标签生成不同长度的真实且多样化的人体运动序列。与完成或扩展运动序列的方法相比,此任务不需要初始姿势或序列。 ACTOR 使用生成变分自动编码器 (VAE) 学习人类动作的动作感知潜在表示。通过从这个潜在空间中采样并通过一系列位置编码查询一定的持续时间,我们合成了以动作为条件的可变长度运动序列。

具体来说,我们设计了一个基于 Transformer 的架构,对从动作识别数据集估计的参数化 SMPL 人体模型序列进行编码和解码。我们在 NTU RGB+D、HumanAct12 和 UETC 数据集上评估了我们的方法,并在多样性和真实性方面展示了相对于现有技术的改进。

3、合成

我们如何知道我们是否捕获了正确的数据以及我们的模型是否“良好”?我们的假设是,如果我们能够产生现实的人类行为,那么我们就完成了我们的工作。

请注意,我们距离创造出像人一样行为的真正真实的虚拟人类还有很长的路要走。事实上,这是一个“AI complete”的问题,需要智能体具有“心理理论”。虽然完整的解决方案仍然是一个梦想,但我们可以取得短期内有用的具体进展。

论文:Stochastic Scene-Aware Motion Prediction

在与 Adob​​e 同事的精彩合作中,我们开始将所有内容整合到一个名为 SAMP 的系统中。 SAMP 使用我们所知道的一切来创建一个虚拟人,该虚拟人可以在新场景中计划其行动,并在场景中移动并与物体交互以实现目标,同时捕捉人类行为中存在的自然变化。 SAMP 建立在我们的动作捕捉工具、我们之前在捕捉人体场景交互 (PROX) 方面的工作以及最近将静态人体放入 3D 场景(PSI、PLACE 和 POSA)方面的工作之上。

SAMP 代表场景感知运动预测,是一种数据驱动的随机运动合成方法,可对目标对象执行给定动作的不同方式进行建模。 SAMP 泛化到不同几何形状的目标对象,同时使角色能够在杂乱的场景中导航。为了训练 SAMP,我们收集了涵盖各种坐姿、躺姿、行走和跑步风格的动作捕捉数据,并使用 MoSh++ 将 SMPL-X 身体拟合到其中。然后,我们通过改变对象的大小和形状来增强这些数据,然后使用逆运动学调整人体姿势以保持身体与对象的接触。

SAMP 包括 MotionNet、GoalNet 和 A* 路径规划算法。 GoalNet 经过训练可以理解对象的可供性。我们用有关人类如何与其交互的信息来标记训练数据;例如他们可以以不同的方式坐在或躺在沙发上。网络学习随机生成新对象的交互状态。 MotionNet 是一种自回归 VAE,它采用目标对象、先前的身体姿势和潜在代码并生成下一个身体姿势。 A* 算法规划从起始姿势到目标对象的路径并生成一系列路径点。然后,SAMP 在这些目标状态之间生成运动。

SAMP 产生看起来很自然的动作,并且角色可以避开障碍物。如果多次生成相同的动作,角色将表现出自然的可变性。虽然还有很多工作要做,但 SAMP 朝着将逼真的虚拟人类放入新颖的 3D 场景中并仅使用高级目标来指导它们迈出了一步。

论文;Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D Shape, Pose, and Appearance Consistency

随着我们改进身体形状和运动模型,我们将遇到现实主义的新障碍。使用现有的图形渲染方法创建逼真的虚拟人仍然具有挑战性,并且需要经验丰富的艺术家。以同样的方式,我们用 SOMA 等神经网络取代捕获,用 SNARF 或 PoP 等神经网络取代 3D 形状模型,我们可以用神经网络取代经典的图形渲染管道。 SPICE 朝这个方向迈出了一步,它获取一个人的单张图像,然后真实地重新放置或动画化它们。通过从图像开始然后改变它,我们保持了真实感。但是,即使我们生成像素,我们的 3D 身体模型也发挥着至关重要的作用。

从单个图像合成具有新颖姿势的人的图像是一项高度模糊的任务。大多数现有方法需要配对训练图像;即同一个人穿着相同衣服、摆出不同姿势的图像。然而,使用配对数据获得足够大的数据集具有挑战性且成本高昂。以前放弃配对监督的方法缺乏现实性。 SPICE(Self-supervised Person Image CrEation)是一种可以与监督方法竞争的自监督方法。

每个三元组由源图像(左)、目标姿态的参考图像(中)和目标姿态的生成图像(右)组成

实现自我监督的关键洞察是通过多种方式利用有关人体的 3D 信息。

首先,休息时3D身体形状必须保持不变。其次,以 3D 形式表示身体姿势可以推理自遮挡。第三,在休息之前和之后可见的 3D 身体部位应该具有相似的外观特征。

经过训练后,SPICE 会拍摄一个人的图像,并以新的目标姿势生成该人的新图像。

SPICE 在 DeepFashion 数据集上实现了最先进的性能,与之前的无监督方法相比,FID 分数从 29.9 提高到 7.8,并且性能与最先进的监督方法 (6.4) 相似。

尽管仅在静态图像上进行训练,但 SPICE 还可以在给定输入图像和一系列姿势的情况下生成时间连贯的视频。

4、总结

在ICCV所取得的成果基础上,我们将继续深化和完善我们的捕获、建模和合成技术。我们所有工作的一条核心原则是:

构建所需,并运用所构建。

换言之,我们遵循着“吃自己的狗粮”的行业术语,意味着我们所展示的一切都是基于我们之前的工作构建的。你可以期待,我们未来的工作将继续以前进在ICCV的工作为基础。

尽管该领域已经取得了显著的进展,但在野外视频捕获方面仍存在挑战。我们特别专注于提取具有丰富面部和手部表现力的人体动态。例如,在SIGGRAPH 2021上展示的DECA,以及在3DV 2021上展示的PIXIE,都是我们在这方面努力的成果。同时,我们也在使用BABEL数据集来生成基于动作标签的更复杂的人体动作。

我们还致力于开发新的隐式形状表示方法,这些方法将更加丰富、真实,并易于学习。事实上,我们的“捕获-模型-合成”方法构成了一个良性循环:合成的人类模型可以用来训练更先进的捕获方法,正如我们在AGORA项目中所展示的那样。通过这种方式,我们能够不断推动技术的发展,实现更高层次的真实感和自动化。

  • 28
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
机器人与数字人是现代科技发展领域的两个重要方向。机器人是通过各种机械装置和传感器实现人工智能和自动化控制的一种设备。数字人则是基于计算机和虚拟现实技术创建的具有人类特征和行为的虚拟实体。 基于Matlab的建模与控制是机器人和数字人研究中的重要工具。Matlab是一种功能强大的科学计算软件,可以用来进行建模、仿真和控制设计。在机器人研究中,通过Matlab可以对机器人的物理特性进行建模和仿真,以便进一步分析和优化机器人的性能。同时,Matlab还提供了丰富的工具箱和函数,可以用于设计和优化机器人的控制算法,实现机器人的自主导航、物体识别和抓取等功能。 对于数字人的研究,基于Matlab的建模与控制同样发挥了重要作用。通过Matlab可以对数字人的外形、动作和行为进行建模,并在虚拟环境中仿真演示。在数字人控制方面,Matlab可以对虚拟环境中的物理特性进行建模和仿真,以实现更加真实的交互体验。同时,Matlab还可以用于开发数字人的智能控制算法,实现虚拟人物自主决策、动作规划和行为生成等功能。 总之,基于Matlab的建模与控制在机器人和数字人研究中具有重要意义。通过这种工具,可以对机器人和数字人进行精确建模和仿真,进一步优化其性能和行为。同时,基于Matlab的控制算法开发也为机器人和数字人带来了更高的智能和自主性。这些研究成果将有助于推动机器人和数字人技术的发展,拓展其在各个领域的应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值