三维人体生成方向——翻译与理解
论文摘要
长期以来,3D 建模一直是计算机视觉和计算机图形学中的一个重要领域。最近,由于神经表示和生成模型的突破,我们见证了 3D 建模的快速发展。3D 人体建模是许多现实世界应用程序(如游戏和动画)的核心,它引起了极大的关注。在过去的几年里,已经引入了大量创建 3D 人类头像的工作,形成了一个新的、丰富的 3D 人体建模知识库。文献的规模使个人很难跟踪所有作品。本调查旨在从重建和生成的角度全面概述这些新兴的 3D 人类头像建模技术。首先,我们回顾了 3D 人体重建的代表性方法,包括基于像素对齐隐函数、神经辐射场和 3D 高斯飞溅的方法等。然后,我们总结了 3D 人类生成的代表性方法,尤其是那些使用 CLIP 等大型语言模型、扩散模型和各种 3D 表示的方法,这些方法展示了最先进的性能。最后,我们讨论了我们对现有方法的反思以及 3D 人类头像建模的开放挑战,为未来的研究提供了启示。
原文连接:[2406.04253] A Survey on 3D Human Avatar Modeling -- From Reconstruction to Generation (arxiv.org)
1.引言
1.1简介
人类头像建模最近取得了重大的科学进展,应用范围从计算机图形学和游戏到虚拟现实和医学成像。虽然早期的方法依赖于昂贵的捕获硬件和劳动密集型校准过程来生成美观的模型 ,但最近的进展使得从各种类型的输入(如图像、视频或文本提示)重建和生成人类头像变得更加方便。

3D 人体网格重建方法大致可分为基于模型的方法和无模型方法 。
基于模型的方法涉及将显式参数化人体模型(例如 SMPL)拟合到图像上,但它们在捕捉服装和头发等复杂细节时遇到了挑战。相比之下,无模型方法通过预测体积空间的占用值来克服这些限制。一种代表性方法是 PIFu ,它利用多层感知器 (MLP) 对隐式函数进行建模,该函数通过利用从输入图像中提取的像素对齐特征来预测给定点的占用值。
然而,PIFu 并没有利用人体的结构,因此难以应对具有挑战性的姿势、自我遮挡和深度模糊。后续工作 通过集成法线贴图、SMPL 模型和深度信息等先验来解决这些缺点。然而,这些方法仍然面临一个拓扑约束,该约束限制了模型在宽松服装下的性能,随后 ECON通过显式方法解决了这个问题。除了使用单视图图像作为输入的方法外,多视图场景从不同角度提供了更丰富的信息来源,从而改善了重建结果。
然而,基于 PIFu 的方法的性能在很大程度上受到 3D 训练数据集质量的限制,这些数据集稀缺且难以获得。NeRF只需输入一组有限的图像即可获得每个 3D 点的 RGB 颜色和密度值,从而实现新颖视图合成。在 NeRF 的基础上,研究人员提出了许多 3D 人体重建方法 ,这些方法将 3D 人体表示为神经辐射场,而无需依赖先验知识或预先训练的模型。除了重建之外,探索用用户控制的新型姿势序列合成自由视角动画也是一个很有前途的研究方向。此外,还提出了方法,以整合表面场和辐射场,以实现高保真3D人类新颖的视图合成。
然而,使用神经辐射场实现高质量的重建结果仍然需要训练和渲染成本高昂的神经网络。 3D 高斯溅射 (3DGS) 在更短的训练时间内表示和渲染复杂的场景,而不会牺牲速度来提高质量。 通过一组 3D 高斯模型对场景进行建模,Kerbl 等人采用了一种显式且以对象为中心的方法,该方法不同于 NeRF 和 DMTet。 继3DGS之后,许多工作被提出,利用其增强3D人体重建的核心原理,从而产生高度动画化和逼真的人体模型。
1.2 生成对抗网络GAN
生成对抗网络(GAN)的出现标志着人类化身生成时代的到来。 基于 GAN 的生成方法通常由两个关键组件组成:StyleGAN 中提出的架构和三平面表示,成功建立了3D场和2D图像之间的连接。 因此,尽管这些方法仅在 2D 数据集上进行训练,但在 3D 人体头像生成领域取得了显着的进展。
虽然基于 GAN 的方法已经取得了令人印象深刻的结果,但它们仍然缺乏生成训练数据集中未包含的看不见的特征的能力。 随着最近大语言模型的发展,3D生成方法采用CLIP直接根据文本提示生成 3D 内容。 然而,由于 CLIP 在完全理解文本描述方面的局限性,这些方法仍然难以生成具有精细细节和复杂动作的人类。 扩散模型的出现通过带有去噪步骤的马尔可夫过程将高斯噪声转换为结构化数据,显着推进了 3D 生成。 从DreamFusion的分数蒸馏采样(SDS)技术中汲取灵感,多种方法的提出是为了从多个角度提高发电质量,推动该领域的进步。 同时,研究人员还引入了其他可能性,扩展扩散模型的使用,以促进可控的 3D 人类编辑。

我们通过图 1 中的各种 3D 表示形式概述了 3D 人体建模。 在本文中,我们提出了近期研究的分类法,描绘了 3D 人体化身建模的演化过程,将其分为五个关键领域:基于 PIFu 的 3D 隐式人体重建、基于 NeRF 的 3D 人体小说视图合成、基于 3D 高斯的方法、基于 GAN 的 3D 人体生成,以及基于语言模型的 3D 人体生成和编辑。 我们通过将每个类别分解为更详细的子类别来进一步检查模型(有关本次调查的概述,请参见图 2)。我们反思现有方法并讨论未来研究的开放挑战和潜在方向,主要关注两类方法:基于优化的方法和前馈方法。
总之,本文对 3D 人体头像建模进行了全面的调查。 特别是,我们做出了以下贡献:首先,我们对 3D 人体重建的代表性方法进行了彻底且最新的回顾。 其次,我们总结了 3D 人体生成新兴技术的代表性方法。 最后,我们对 3D 人体头像建模的现有方法进行了反思,并讨论了该领域未来发展的见解和潜在的未来研究方向。
2.调查范围
这项调查深入探讨了利用神经网络的 3D 人体建模的最新进展。 具体来说,我们首先说明从单目图像进行基于隐函数的 3D 人体重建的过程。 随后,我们分析了神经辐射场 (NeRF) 和 3D 高斯分布对 3D 人体建模的影响。 然后,我们探索 3D 生成人工智能领域,特别关注生成对抗网络 (GAN)、对比语言图像预训练 (CLIP) 和扩散模型。 在本次调查的最后,我们提供了对该领域未来方向的见解。
本次调查全面讨论了 3D 人体建模的基本技术,涵盖 3D 重建、生成和编辑,以提供对过去、现在和未来的详细了解。 我们收集了来自主要计算机视觉和计算机图形会议和期刊的论文,以及 arXiv 上提供的预印本。 选择过程优先考虑与本次调查范围的相关性,旨在全面概述该领域的快速进展。 然而,值得注意的是,虽然本报告是特定领域最先进方法的汇编,但由于出版物数量庞大且发展迅速,很难全面覆盖。场地。 鼓励读者参考引用的作品以进行更深入的讨论和其他方法。
相关调查:人体网格恢复 (HMR) 是当前 3D 人体建模的基础。 然而,由于篇幅限制,我们认为它们超出了本报告的范围。 有兴趣的读者可以在[WTZ*21, ZWC*23, TZLW23]中找到关于 HMR 的更全面的见解。 3D 表示构成了 3D 人体建模和 3D 一般对象构建的基础。 我们鼓励读者学习[GWH*20, HMZA21]了解点云的细节,[TFT*20, TTM*22]了解NeRF,以及 [CW24, FXZ*24, WYZ*24] 用于最新的 3D 高斯泼溅。 此外,大型语言模型的进步刺激了 3D 虚拟领域的另一个方面的研究,即 3D 一般对象。 3D生成方法的最新进展可以通过[YZS*23,CTG*24,LZW*23,LZK*24]来探索。 我们还建议咨询[CHIS23、XFC*23、PYG*23]以深入了解 2D 生成式 AI。
3.三维人体生成
3.1基于GAN的3D人体生成
转向 3D 人类生成,我们首先讨论利用生成对抗网络 (GAN) 的方法。 尽管StyleGAN及其后续工作是在2D图像空间中进行的,但它们为最近的3D-GAN网络提供了数据集和网络基础。 因此,本节主要讨论 StyleGAN 相关技术和采用三平面作为 3D 表示的 3D-GAN 方法。
3.2基于大模型的3D人体生成
在3D人体生成领域,研究者们通过利用先进的2D生成图像模型,如CLIP(Contrastive Language-Image Pretraining)和扩散模型,探索基于文本提示的3D表示优化方法。这些方法能够生成网格、点云、NeRF(Neural Radiance Fields)和3D高斯等3D内容。
3.2.1基于CLIP的3D人体生成
CLIP模型
CLIP(Contrastive Language-Image Pretraining)模型是一种由OpenAI开发的多模态学习模型,CLIP模型通过将图像和文本映射到同一特征空间,以便进行有效的相似性比较,成为3D人体生成的基础。
<1>模型架构
- 双塔结构:CLIP采用了一个双塔架构,其中一部分是用于处理文本的模型(如Transformer),另一部分是用于处理图像的模型(如卷积神经网络)。这两部分网络通过对比学习的方式进行训练。
- 共同特征空间:在训练过程中,CLIP学习将图像和相应的文本描述映射到同一个特征空间,从而使得同一内容的图像和文本在特征空间中接近,而不同内容的图像和文本则远离。
<2>对比学习
- 训练目标:CLIP的训练目标是最大化同一图像和文本描述的相似性,同时最小化不同图像和文本之间的相似性。这种对比学习的策略使得模型能够学习到更丰富的特征表示。
- 数据集:CLIP使用了大规模的图像-文本配对数据集进行训练,涵盖了各种主题和风格,使得模型具备了广泛的知识和泛化能力。
<3>应用场景
- 图像分类:CLIP可以进行无监督的图像分类,通过提供文本标签,模型能够准确地识别和分类图像。
- 生成任务:由于其对图像和文本的共同理解,CLIP在生成任务中也表现出色,能够为生成模型(如GAN、Diffusion Models等)提供文本条件,使得生成的内容与文本描述一致。
- 3D内容生成:CLIP已被用于3D内容生成领域,例如3D人体生成。通过将图像和文本映射到相同的特征空间,可以根据文本描述生成相应的3D模型。
<4>优势
- 灵活性:CLIP可以处理多种任务,无需针对特定任务进行微调,极大地提升了其适用性。
- 泛化能力:得益于大规模的训练数据,CLIP在多样化任务上的表现优于传统的单模态学习模型。
CLIP模型通过将图像和文本映射到共同的特征空间,利用对比学习的方式,提供了一种强大且灵活的多模态理解能力。这使得CLIP在多个应用领域(尤其是生成任务和3D内容生成)中展现出巨大的潜力和价值。
发展过程与相关方法
1)DreamField 是最早将 3D 表示与预训练语言模型集成的方法之一,通过评估从 3D 内容生成的渲染图像与文本提示之间的相似性。
主要方法是一种自优化技术,旨在将 3D 内容生成与文本提示有效地结合起来,具体方法包括以下几个步骤:
-
初始化 NeRF:将神经辐射场(NeRF)模型初始化为一个单位球体。这意味着在生成3D内容的起始阶段,模型的表示会先以一个简单的几何形状(单位球体)开始,这为后续的优化提供了基础。
-
随机采样渲染:在每次迭代期间,从随机采样的相机方向渲染 RGB 图像。这一步通过不同的视角获取图像,提供了多样化的视觉信息。
-
计算相似性损失:利用 CLIP 模型计算渲染图像与文本提示之间的相似性距离,将这个距离作为损失函数。通过比较渲染图像与文本描述的相似性,模型能够量化当前生成的内容与文本提示的一致性。
-
反向传播优化:将计算得到的损失反向传播,以优化 NeRF 模型的参数。这一过程通过迭代优化,使得模型能够逐步调整其3D表示,以更好地与文本提示对齐。
2)继 DreamField 之后,Text2Mesh提出在每次迭代时同时渲染来自不同视点的多个图像以增强性能。 这样做的主要目的是提高模型对3D形状的理解和生成能力。
- 多视点渲染:通过多视点渲染,模型能够获得更全面的3D对象信息,从而提升生成结果的质量和细节。这种方法帮助模型更好地捕捉形状和细节,减少因为单一视角渲染带来的信息丢失。
CLIP-Mesh引入了一套新的渲染增强技术,以提升模型在生成3D对象时的性能。这些增强措施可能包括图像质量改进、颜色调整、光照模拟等。
- 文本到图像嵌入的结合:该方法还融合了文本到图像的嵌入先验,使得生成的3D模型在视觉上更符合文本提示。这种结合使得模型能够在生成过程中更好地保持与输入文本的一致性。
CLIPXlore通过将编码后的 CLIP 代码映射到其关联的形状代码,确保 CLIP 模型和形状潜在空间之间的连贯连接。这样做可以提高模型的潜在空间的可用性,使其在生成过程中能够保持一致性。
- 潜在空间的连接:这种映射机制确保了文本提示与生成的3D形状之间的关系更加明确,使得生成的结果更加贴合用户的输入。
总体而言,Text2Mesh、CLIP-Mesh和CLIPXlore等方法在3D内容生成领域提供了显著的改进,通过引入多视角渲染和更好的嵌入结合,提高了生成的质量和性能。然而,尽管有这些进步,拓扑和结构的准确性仍然是一个亟待解决的问题。由于人类受试者的复杂性,模型通常无法生成拓扑和结构上正确的3D人体模型。这表明,尽管方法的改进提高了生成质量,但在处理复杂的人体形状时,仍然存在难以克服的挑战。
3)AvatarCLIP :AvatarCLIP 采用了一种创新的方法,通过使用预定义的 SMPL(Skinned Multi-Person Linear)模型来初始化 NeuS(Neural Surface)模型,而不是传统方法中常用的球体单元。这种做法允许模型更好地捕捉人类形体的复杂性,提供更高的初始化精度,进而提升3D人体生成的质量。
- 动画生成:除了生成静态的3D人体模型外,AvatarCLIP 还扩展了其功能,能够根据文本提示生成3D人体的动画运动序列。这意味着用户可以通过简单的文本描述,得到动态的3D表现,增加了应用的灵活性和互动性。
- 运动VAE模型的利用:预先计算的码本,在动画生成过程中,AvatarCLIP 使用了预先计算的码本,这可能包含了与人体运动相关的多种姿态和运动模式。这使得生成的动画更为自然和多样。变分自动编码器(VAE),结合预先训练的运动 VAE 模型,AvatarCLIP 可以更有效地捕捉和重建运动序列。这一方法通过学习人体运动的潜在空间,使得生成的动画不仅符合用户的文本提示,还能保持生物力学上的合理性。
- 基于SMPL的变形:通过利用等式 (10) 中描述的基于 SMPL 的变形,AvatarCLIP 能够对预生成的3D人体模型进行有效的动画处理。这种基于模型的变形方法能够在保持形体一致性的同时,生成平滑且自然的运动效果。
4)继 AvatarCLIP 之后,MotionCLIP 引入了一种基于 Transformer 的运动自动编码器。这种结构使得模型能够更高效地重建运动数据,并通过学习与 CLIP 空间中的文本标签位置对齐,提升了运动生成的语义一致性。T2M-GPT 将 CLIP 文本嵌入作为语言先验,这一做法使得运动生成不仅依赖于运动数据本身,还能够利用文本信息作为上下文,增强生成的灵活性和多样性。AttT2M提出了身体部位注意力来学习离散潜在空间和全局局部运动文本注意力来学习句子和单词级运动文本跨模态关系。 Wu 等人 引入描述性代码空间作为从文本嵌入空间到3D人脸参数空间映射的中介。
不幸的是,尽管 CLIP 具有避免昂贵且难以获得的 3D 数据集的优势,但它仍然难以创建逼真的 3D 网格,并且在人体运动方面缺乏广泛的概括。 这种限制主要源于 CLIP 完全理解复杂人类语言的能力有限。
3.2.2基于扩散模型的3D人体生成和编辑
与基于 CLIP 的方法将图像和文本嵌入到共享潜在空间中以比较它们的相似性并学习关联不同,扩散模型通过马尔可夫过程将随机高斯噪声转换为结构化数据一系列去噪步骤:
pθ(𝐱0:T)=p(𝐱T)∏t=1Tpθ(𝐱t−1∣𝐱t), | (63) |
其中 pθ(𝐱0:T) 是过程所有状态的联合分布,p(𝐱T) 是最终时间步 T 的分布,通常假设为标准高斯分布并以最嘈杂的形式表示数据。 ∏t=1Tpθ(𝐱t−1|𝐱t) 是条件分布的顺序乘法,每个条件分布表示给定时间步 t 状态的情况下时间步 t−1 状态的概率分布。
虽然 CLIP 可能会导致对复杂指令的解释不太精确,但另一方面,扩散模型绕过了语言-图像配对中固有的语言歧义,专注于视觉数据的逐步细化,并在 3D 人类表示中表现更好。
受益于文本引导扩散模型ϕ的发展,DreamFusion提出了一种新颖的分数蒸馏采样( SDS)以生成 3D 场景g(θ)。 我们将 NeRF 的 RGB 渲染表示为 I,将文本嵌入表示为 y。 SDS策略首先涉及编码I以导出潜在特征z,并向z引入随机噪声ϵ以生成有噪声的潜在变量zt。 然后使用预训练的去噪函数ϵϕ(zt;y,t)来预测添加的噪声。 SDS 损失定义为预测噪声和添加噪声之间的差异,其梯度由下式给出:
∇θℒSDS(ϕ,g(θ))=𝔼t,ϵ[w(t)(ϵϕ(zt;y,t)−ϵ)∂z/∂x *∂x/∂θ] | (64) |
其中w(t)对噪声水平t的损失进行加权。 SDS 梯度将反向传播以优化 g(θ),从文本提示生成富有表现力的 3D 内容。
继DreamFusion之后,人们还开发了许多其他方法来从不同角度提高性能。 其中,Latent-NeRF采用潜在扩散模型来优化潜在空间中的NeRF,大大提高了训练效率。 Magic3D采用从粗到细的策略,利用潜在扩散模型和 DMTet实现高分辨率 3D 内容生成。 Fantasia3D将生成过程分解为几何和纹理生成,以提高性能。 TEXTure通过使用预先训练的深度到图像扩散模型并应用从不同视点绘制给定 3D 模型的迭代方案,在纹理生成、传输和编辑方面进行创新。 ProlificDreamer引入了变分分数蒸馏 (VSD),以提高生成的 3D 内容的质量和多样性。 MVDream微调多视图扩散模型以产生一致的多视图 3D 生成。 然而,这些方法在生成 3D 人体时始终面临类似的限制。 例如,它们无法控制人体运动,结果往往缺少手或脚,几何形状和纹理不一致。