点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+单位+昵称,拉你入群。文末附行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内汇总了众多3D视觉实战问题,以及各个模块的学习资料,包括20+门独家视频课程、100+场顶会直播讲解、最新顶会论文分享、计算机视觉书籍、优质3D视觉算法源码、3D视觉入门环境配置教程、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?
这篇文章提出了一种创新的3D人脸生成模型,结合了语义控制,能够高质量生成3D人脸模型,并支持属性操控。通过设计特定的归一化网络和解耦生成器,该模型不仅能利用高质量的扫描数据,还能从大量的实际人脸数据中提取丰富的语义信息。实验结果表明,该模型能够有效应对不同光照条件下的人脸生成,并在多个视角下保持一致性,支持生成新的人脸并进行表情、年龄、性别等属性的修改。该模型在3D人脸重建、虚拟角色制作和合成数据生成等领域展现出巨大的潜力。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Bringing Diversity from Diffusion Models to Semantic-Guided Face Asset Generation
作者:YUNXUAN CAI等
作者机构:University of Southern California等
论文链接:https://arxiv.org/pdf/2504.15259
2. 摘要
人脸的数字建模与重建服务于多种应用。然而,它的可用性常常受到数据采集设备、人工劳动和适合演员的要求的限制。这种情况限制了生成模型的多样性、表现力和可控性。本文旨在展示,语义可控的生成网络可以提供更好的控制,改善数字人脸建模过程。为了超越在受控环境中扫描的有限人脸,增强多样性,我们引入了一种新颖的数据生成管道,利用预训练的扩散模型创建高质量的3D人脸数据库。我们提出的归一化模块将扩散模型生成的数据转换为高质量的扫描数据。使用我们获得的44,000个面部模型,我们进一步开发了一个高效的基于GAN的生成器。该生成器接受语义属性作为输入,并生成几何形状和反照率。同时,它还允许在潜在空间中对属性进行连续的后期编辑。我们的资产精炼组件随后创建物理基础的人脸资产。我们介绍了一个用于创建和编辑高质量人脸资产的综合系统。我们提出的模型经过了广泛的实验、比较和评估。我们还将这一切集成到一个基于Web的互动工具中,并计划在论文发布时公开该工具。

3. 效果展示
训练数据的例子。每个示例中从左到右依次为:输入属性(语义和肤色指南)、人像、归一化前的地图、归一化纹理地图、经过后处理后渲染的图像。(第3.1.3节)。

单视图人脸重建模型在肖像上的结果,(a)初始几何图形(b)使用初始几何图形生成的肖像,(c)单视图人脸重建后的精细几何图形。

4. 主要贡献
我们提出了一个全面、实用且新颖的框架,用于生成高质量的面部资产。该系统使用用户定义的语义和属性来创建基于PBR的面部资产,包括基本几何、反照率、镜面反射和位移图,以及眼球、牙齿和牙龈等附加资产。该系统还允许在几何和纹理方面进行后期编辑,同时保持身份。生成的面部头像可以无缝集成到下游应用程序中进行渲染和动画。此外,我们开发了一个互动式Web用户界面,供用户探索这些功能。推荐课程:彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用。
我们开发了一个大型高质量的3D人脸数据库,包含44K个反照率/几何对,并附有年龄、性别和种族标签。该数据库展示了如何有效地在行业生产管道中使用预训练的扩散模型。
我们还解决了在两个领域中不平衡数据量下的领域迁移问题。我们的纹理归一化框架将44,000个无约束图像转化为包含200个图像的领域。这使我们能够将一个领域的多样性与另一个领域的质量相结合。这为该领域的研究提供了灵感。
5. 基本原理是啥?
语义控制:该模型允许用户通过控制不同的语义属性来生成3D人脸。语义属性可能包括年龄、性别、表情等。通过对这些属性的控制,用户能够生成符合特定需求的人脸模型。
高质量训练数据:模型通过使用高质量的扫描数据(例如人脸扫描模型)以及来自“野外”的大量人脸模型(如社交媒体等真实世界数据),实现了更高的多样性和更丰富的语义信息。
归一化网络:为了应对不同光照、姿态等变化,论文提出了一个专门设计的归一化网络,用于将不同的输入面部图像标准化,使其符合模型的标准。这使得即使在不同的光照条件下,模型也能生成一致的高质量人脸。
解耦生成器:该生成器能够分离和处理人脸的不同特征(如几何形状、纹理等),以便更加精确地控制每个特征的生成,增强模型的灵活性和可操作性。
扩散模型:通过从扩散模型中获取训练数据,扩展了训练数据的多样性,使得模型能够处理更多不同类型的面部特征和属性。这有助于生成具有更高多样性和真实性的人脸模型。
3D人脸模型生成:最终,模型通过语义控制生成高质量的3D人脸模型,且能够进行多种属性的修改,如改变面部表情、光照和角度等,进而使生成的3D人脸适应多种实际应用场景。





6. 实验结果
光照不变性: 通过使用归一化网络,模型能够有效处理来自不同光照条件下的人脸图像。实验表明,模型在多种光照条件下生成的人脸模型具有一致性,即使输入的图像存在强烈的光照变化,生成的人脸仍然保留高质量和细节。
属性操作和控制: 模型能够通过语义控制对3D人脸进行属性操作,例如改变年龄、性别、表情等。实验中展示了对生成的人脸模型进行这些属性修改后的效果,模型在修改后的3D人脸中能够准确反映用户设定的属性,如改变表情时嘴角的变化、眼睛的变化等。
生成新的人脸: 模型不仅能够从输入图像中恢复和重建人脸,还能够生成全新的、从未见过的面孔。这证明了模型能够根据输入的语义指导信息生成富有创意和多样性的新3D人脸。
多视角一致性: 模型生成的人脸在多个视角下保持一致性,且能够处理不同角度和不同光照下的人脸纹理。这表明模型具备较强的泛化能力,能够在多视角和复杂场景中生成高质量的人脸。
高质量的3D人脸重建: 通过实验,模型展现了其在生成高质量3D人脸方面的强大能力。与现有的3D人脸重建方法相比,该模型能够提供更加真实且细致的面部细节,如皮肤纹理、面部轮廓等。
生成合成数据: 该模型还被用于生成合成的训练数据,用于其他计算机视觉任务。实验显示,这些合成数据能够用于训练其他视觉模型,并且表现出色,具有较高的准确性和鲁棒性。
与其他方法的比较: 论文还通过与传统的3D人脸重建方法进行比较,展示了该模型在生成精度和多样性上的优势。与现有的基于扫描数据的传统方法相比,该模型能够生成更多样化和逼真的人脸,并且在处理不同特征(如肤色、面部表情等)时,能够灵活应对。











7. 总结 & 未来工作
局限性
尽管我们在语义引导生成PBR面部资产的生产质量系统方面取得了显著进展,但我们的系统仍有一些可以改进的方面。通过从扩散模型中获取训练数据,我们大大扩展了训练数据的多样性。然而,我们的方法仅适用于纹理贴图,因为目前还没有可控的高质量大规模面部几何生成模型。因此,尽管我们可以通过单视角人脸重建方法对几何形状进行细化,但初始几何的多样性仍然受到扫描数据集的限制。此外,由扩散模型生成的正面视图人像上投影的UV纹理中的不可见部分,需要通过扫描数据集进行补充。这要求扫描数据具有良好的分布。如果生成的人像在扫描数据中没有类似标签,例如,如果扫描数据库中没有深色肤色,则深色肤色的纹理可能无法准确填补。因此,我们计划探索一种多视角一致的纹理合成方法,可以在不需要修补的情况下生成完整的纹理。由于使用预训练的扩散模型创建训练数据,我们的生成模型可能会继承像Stable Diffusion这类模型中的潜在偏差。尽管我们通过手动定义属性和数据准备中的分布,确保每个属性的训练数据是平衡的,但值得讨论的是,如果预训练模型未能多样化某些属性,我们的方法可能仍会继承一些问题。此外,由于生成的人脸质量很高,误用和隐私管理也是重大挑战。
结论
我们介绍了一种新的3D人脸生成模型,该模型允许进行语义控制并创建高质量的人脸模型,这在3D人脸模型(3DMM)中是前所未有的。实现我们模型的主要贡献是一个专门设计的归一化网络和一个解耦生成器,它们不仅能够利用高质量的扫描模型,还能利用大量具有丰富语义信息的野外人脸模型。实验表明,我们的模型能够有效地对来自不同光照条件的人脸进行归一化,生成新的面部并在多个语义方向上对生成的3D面部进行属性操控。我们相信,我们系统所取得的进展在许多应用中具有巨大的潜力,包括视觉特效制作、定制数字化身以及为其他基础计算机视觉研究生成合成训练数据。
本文仅做学术分享,如有侵权,请联系删文。


3D硬件专区

「3D视觉从入门到精通」知识星球
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀7年,星球内资料包括:3D视觉系列视频近20+门、100+场直播顶会讲解、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步!

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群

点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~