颠覆全行业！Meta发布3DGen：1分钟生成3D模型！效果炸裂！

最新推荐文章于 2025-04-28 09:22:26 发布

3Ｄ视觉工坊

最新推荐文章于 2025-04-28 09:22:26 发布

阅读量261

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247691182&idx=3&sn=95744f95ac559170473463662a4b708f&chksm=fae9d8cf47efcc57ea585213571e18e316f69c93fe9aaa78fe99d521b2ae7904fc31be862047&scene=126&sessionid=0

版权

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

我们介绍了Meta 3D Gen（3DGen），这是一种用于高效文本到3D生成的最先进解决方案。

Meta 3D Gen能够在不到一分钟的时间内高质量地生成3D资产。它支持基于物理的渲染（PBR），这对于在应用中实现生成资产的重新照明至关重要。经专业3D艺术家评估，Meta 3D Gen显著提高了生产级3D资产的关键指标，尤其是对于复杂的文本提示。其对文本提示的忠实度优于其他文本到3D的方法（无论是否为商业方法），并且在生成速度上超越了需要三分钟到一小时的技术。生成的3D形状和纹理的质量优于或至少与这些竞争对手相当，同时采用了一个可扩展的系统，该系统显著更快且更忠实。一旦对象生成，其纹理就可以在20秒内进一步编辑和自定义，与替代方案相比，质量更高且成本更低。同样的方法也可以应用于艺术家创建的3D网格的纹理处理，而无需进行修改。

Meta 3D Gen 是一种两阶段方法，结合了文本到 3D 生成和文本到纹理生成两个组件。这种集成使得沉浸式内容创建的 3D 生成质量更高。具体而言：

• 第一阶段：3D 资产生成。给定用户提供的文本提示，第一阶段使用我们的 Meta 3D AssetGen模型创建一个初始 3D 资产。这一步将生成具有纹理和 PBR（基于物理的渲染）材质图的 3D 网格。推断时间大约为 30 秒。

• 第二阶段，用例 1：生成性 3D 纹理细化。给定在第一阶段生成的 3D 资产和用于生成的初始文本提示，第二阶段为该资产和提示生成更高质量的纹理和 PBR 映射图。它利用我们的文本到纹理生成器 Meta 3D TextureGen。推断时间大约为 20 秒。

• 第二阶段，用例 2：生成性 3D（重新）纹理化。给定一个无纹理的 3D 网格和一个描述其期望外观的提示，第二阶段还可以用于从头开始为该 3D 资产生成纹理（网格可以是之前生成的或由艺术家创建的）。推断时间大约为 20 秒。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Meta 3D Gen

作者：Raphael Bensadoun, Tom Monnier, Yanir Kleiman, Filippos Kokkinos, Yawar Siddiqui, Mahendra Kariya, Omri Harosh, Roman Shapovalov, Benjamin Graham, Emilien Garreau, Animesh Karnewar, Ang Cao, Idan Azuri, Iurii Makarov, Eric-Tuan Le, Antoine Toisoul, David Novotny, Oran Gafni, Natalia Neverova, Andrea Vedaldi

机构：Meta

原文链接：https://arxiv.org/abs/2407.02599

官方主页：https://ai.meta.com/research/publications/meta-3d-gen/

2. 摘要

我们介绍了Meta 3D Gen（3DGen），这是一种最新且快速的文本到3D资产生成流程。3DGen能够在不到一分钟的时间内提供高提示保真度和高质量的3D形状及纹理的3D资产创建。它支持基于物理的渲染（PBR），这是现实世界应用中3D资产重新照明所必需的。此外，3DGen还支持使用用户提供的额外文本输入对先前生成（或艺术家创建）的3D形状进行生成性重新纹理化。3DGen集成了我们分别为文本到3D和文本到纹理生成而开发的关键技术组件Meta 3D AssetGen和Meta 3D TextureGen。通过结合两者的优势，3DGen以三种方式同时表示3D对象：在视图空间中、在体积空间中以及在UV（或纹理）空间中。这两项技术的结合使得与单阶段模型相比，其获胜率达到了68%。我们将3DGen与众多行业基线进行了比较，并表明它在处理复杂的文本提示时，在提示保真度和视觉质量方面优于这些基线，同时速度显著提高。

3. 效果展示

Meta 3D Gen将Meta的文本到3D和文本到纹理生成的基础模型集成在一个统一的管道中，实现了使用PBR材质图高效、最先进地创建和编辑多样化、高质量的纹理3D资产。

文本到三维生成的定性结果。我们展示了3DGen在不同场景类别（单个对象和构图）中生成的文本到三维生成的质量和多样性。

我们将 Meta 3D Gen 的性能与当前可通过网络演示和公共 API 访问的领先行业文本到 3D 生成模型进行了比较。表 1 总结了这些模型与文本到 3D 生成相关的能力以及运行时间。

4. 主要贡献

通过构建在 AssetGen 和 TextureGen 的基础上，3DGen 有效地结合了 3D 对象的三种高度互补的表示方式：视图空间（对象的图像）、体积空间（3D 形状和外观）和 UV 空间（纹理）。这一过程首先在 AssetGen 中开始，利用文本到图像生成器的多视图和多通道版本生成对象的几个相当一致的视图。然后，AssetGen 中的重建网络在体积空间中提取 3D 对象的第一个版本。随后进行网格提取，确定对象的 3D 形状和纹理的初始版本。最后，TextureGen 的组件利用视图空间和 UV 空间生成的组合来重新生成纹理，从而在保持对初始提示的保真度的同时提升纹理质量和分辨率。3DGen 的每个阶段都建立在 Meta 的一系列强大的文本到图像模型 Emu之上。这些模型使用合成 3D 数据（来自内部数据集）的渲染进行微调，以在视图空间和 UV 空间中执行多视图生成，从而生成更好的纹理。

将两个阶段（AssetGen 和 TextureGen）及其不同的表示形式相结合，在评估中，组合模型赢得了 68% 的时间。除了这种新组合带来的优势外，各个组件在其接收功能方面也优于现有技术。具体来说，AssetGen 在文本到 3D 的转换方面取得了多方面的进步：它支持基于物理的渲染，允许重新照明生成的物体；通过改进的表示（基于有符号距离场）获得更好的 3D 形状；并开发了一种新的神经网络，可以有效地将基于视图的信息组合并融合到单个纹理中。同样地，TextureGen 通过开发一个也在混合视图和 UV 空间中运行的端到端网络，优于先前的纹理生成器方法。值得注意的是，与许多现有技术解决方案不同，AssetGen 和 TextureGen 都是前馈生成器，因此在部署后既快速又高效。

5. 基本原理是啥？

Meta 3D Gen.概述该管道以文本提示为输入，执行文本到3D的生成（第一阶段），然后进行纹理细化（第二阶段）。阶段II也可用于使用用户提供的新文本提示对生成的或艺术家创建的网格进行重新纹理化。

6. 实验结果

用户研究关于文本提示保真度的结果如表2所示。这些结果是通过独立询问每个模型的标注者来获得的，要求他们决定文本提示是否正确描述了生成的内容。在这一指标上（两个阶段均如此），3DGen 优于所有考虑的行业基线，而第三方文本到3D（T23D）生成器则是整体上的最强竞争对手。

A/B测试用户研究旨在评估我们模型与生成纹理和PBR材料的基线模型相比的文本提示保真度、整体视觉质量、几何视觉质量、纹理细节和瑕疵。我们没有对我们的方法与生成烘焙纹理的模型进行详尽评估，因为这两类模型在渲染时产生的生成物之间存在显著的感知差异，并且由于纹理仅生成在现实世界应用中的实用性有限。结果总结在表3中。我们首先报告了所有标注者的综合评分，然后单独从具有强大3D专业知识的子集中进行报告。总体而言，根据大多数指标，3DGen的表现强于竞争对手，同时速度也显著更快。

我们观察到，3D经验较少的标注者倾向于偏爱具有更清晰、更生动、更逼真、更详细纹理的资产，并且对即使存在显著的纹理和几何瑕疵也不太敏感。专业的3D艺术家则在整个指标范围内对3DGen的生成物表现出更强的偏好。我们观察到，他们的评估更加重视几何形状和纹理的正确性。

在图3中，我们分析了视觉质量、几何形状、纹理细节和纹理瑕疵的存在率等性能指标，这些指标是文本提示描述的场景复杂性的函数。图表显示，虽然对于一些简单的提示，一些基线模型的表现相当，但随着提示复杂性的增加，3DGen开始显著优于它们。曲线图显示，虽然一些基线在简单提示方面表现平平，但随着从对象到角色及其组成的提示复杂性的增加，3DGen开始表现出强大的性能。

7. 总结 & 未来工作

我们介绍了 3DGen，这是一个统一的流程，它将 Meta 的基础生成模型整合在一起，用于文本到 3D 的生成，并分别具备纹理编辑和材料生成能力，即 AssetGen 和 TextureGen。通过结合它们的优势，3DGen 能够在不到一分钟的时间内从文本提示中合成出非常高质量的 3D 对象。经过专业 3D 艺术家的评估，与业界其他方案相比，3DGen 的输出在大多数情况下更受欢迎，特别是对于复杂的提示，同时速度提高了 3 倍至 60 倍。

尽管我们目前对 AssetGen 和 TextureGen 的整合相对直接，但它为未来的研究指明了一个非常有前景的方向，该方向基于两个主要推动力：（1）在视图空间和 UV 空间中进行生成；（2）对纹理和形状生成进行端到端的迭代。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	低成本+体积小 +重量轻+抗高反	YA001高精度3D相机
‍	抗高反+无惧黑色+半透明	KW-D \| 高精度3D结构光开源相机
	硬件+源码‍	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多