论文题目:3DTOPIA-XL:通过原始图元扩散提升高质量3D素材生成的规模
随着各行各业对高质量3D素材的需求不断增加,迫切需要一种高效且自动化的3D内容创建方法。尽管3D生成模型领域最近取得了显著进展,但现有方法在优化速度、几何保真度以及物理基础渲染(PBR)素材的缺乏方面仍面临挑战。在本文中,我们介绍了3DTopia-XL,这是一个可扩展的本地3D生成模型,旨在克服这些限制。3DTopia-XL利用了一种新颖的基于原始图元的3D表示方法PrimX,将详细的形状、反照率和材料字段编码到紧凑的张量格式中,便于对高分辨率几何图形进行PBR素材建模。在这种新颖表示的基础上,我们提出了一个基于扩散变换器(DiT)的生成框架,包括1)原始图元压缩,2)潜在原始图元扩散。3DTopia-XL能够从文本或视觉输入中学习生成高质量3D资产。我们进行了广泛的定性和定量实验,以证明3DTopia-XL在生成具有细粒度纹理和材料的高质量3D素材方面显著优于现有方法,有效地弥合了生成模型与现实世界应用之间的质量差距。
引言
高质量的3D素材对于许多现实世界的应用至关重要,例如电影、游戏和虚拟现实。然而,创建高质量的3D素材需要大量的手工劳动和专业知识。因此,这进一步推动了对自动3D内容创建技术的需求,这些技术可以利用3D生成模型从视觉或文本输入自动生成3D素材。
最近,在3D生成模型领域取得了快速进展。现有的最先进技术可以分为三类:
- 基于得分蒸馏采样(SDS)的方法通过每场景优化将2D扩散先验提升到3D表示,但这些方法存在优化耗时、几何图形差和多方面不一致的问题。
- 基于稀疏视图重建的方法利用大型模型从单视图或多视图图像回归3D素材,但这些方法由于参数效率低下,有效参数空间限于低分辨率,导致3D素材质量相对较低。
- 作为原生3D生成模型的方法旨在模拟3D素材的概率分布,但在生成具有物理基础渲染(PBR)素材的高质量3D对象方面,这些方法中很少有能够做到的。
为了解决上述限制,我们提出了3DTopia-XL,这是一个高质量的原生3D生成模型,用于大规模的3D素材生成。我们的核心思想是在新颖的基于原始图元的3D表示之上扩展强大的扩散变换器。3DTopia-XL的核心是一个高效的3D表示PrimX,它将纹理网格的形状、反照率和材料编码到紧凑的N×D张量中,从而实现对高分辨率几何图形和PBR素材的建模。具体来说,我们在网格表面采样的位置锚定N个原始图元。每个原始图元是一个小体素,由其3D位置、全局缩放因子和对应的空间变化的有效载荷参数化,用于SDF、RGB和材料。值得注意的是,与仅用于形状表示的M-SDF相比,提出的表示方法以统一的方式编码形状、颜色和材料。它还支持高效的可微分渲染,从而有潜力不仅从3D数据学习,还可以从图像集合中学习。此外,我们精心设计了初始化和微调策略,使得PrimX能够从纹理网格(GLB文件)中快速张量化,比在相同设置下的三平面快十倍。
由于张量和紧凑的PrimX,我们使用潜在原始图元扩散和Transformer扩展了3D生成建模,我们将每个3D对象视为一组原始图元。具体来说,我们提出的3D生成框架包括两个模块。1)原始图元压缩使用3D VAE对每个单独的原始图元进行空间压缩以获得潜在的原始图元标记;2)潜在原始图元扩散利用Diffusion Transformers(DiT)对潜在原始图元标记的全局相关性进行建模,用于生成建模。值得注意的是,PrimX的置换等变性自然支持在不使用位置编码的情况下训练Transformer。所提出的表示的显著效率使我们能够使用干净且统一的框架进行高分辨率生成训练,而无需超分辨率或基于后处理优化的网格细化。
此外,我们还精心设计了从PrimX到高质量3D PBR素材提取的算法,以确保PrimX和纹理网格之间的可逆转换。大多数3D生成模型的一个问题是它们使用顶点着色来表示物体的纹理,这在将它们的生成结果导出到网格格式时会导致质量显著下降。由于PrimX中通过有符号距离场(SDF)建模的高质量表面,我们提出通过零级轮廓提取3D形状,并在高分辨率UV空间中采样纹理和材料值。这导致了高质量的素材提取,显著减少了顶点数量,也准备好被打包成GLB格式以用于下游任务。
我们进行了广泛的定性和定量实验,以评估我们方法在文本到3D和图像到3D任务中的有效性。此外,我们进行了广泛的消融研究,以激发我们在生成建模的背景下为PrimX实现更好的效率-质量权衡的设计选择。总之,我们的贡献总结如下:
1)我们提出了一种新的3D表示PrimX,用于高质量3D内容创建,它是高效的、张量的,并且可以渲染。
2)我们引入了一个可扩展的生成框架3DTopia-XL,专为生成具有高分辨率几何图形、纹理和材料的高质量3D素材而设计。
3)从3D表示到素材提取的实际技术,以避免质量差距。
4)我们展示了3DTopia-XL在图像到3D和文本到3D任务中的优越质量和令人印象深刻的应用。
方法
3.1 PrimX: 形状、纹理和材料的高效表示
在详细介绍之前,我们概述了在高质量大规模3D生成模型背景下3D表示的设计原则:1) 参数效率高:在近似误差和参数数量之间提供良好的权衡;2) 快速张量化:可以高效地转换为张量结构,这有助于使用现代神经架构进行生成建模;3) 可微分渲染:与可微分渲染器兼容,允许从3D和2D数据中学习。
3.1 PrimX: 形状、纹理和材料的高效表示
在我们详细介绍之前,我们提出了3D表示在高质量大规模3D生成模型背景下的设计原则:1) 参数效率高:在近似误差和参数数量之间提供良好的权衡;2) 快速张量化:可以高效地转换为张量结构,这有助于使用现代神经架构进行生成建模;3) 可微分渲染:与可微分渲染器兼容,允许从3D和2D数据中学习。
3.1.1 定义
给定一个纹理化的3D网格,我们将其3D形状建模为符号距离函数(SDF),并且给定形状表面的邻域,我们定义了空间变化的颜色函数和材料函数。所有形状、纹理和材料信息可以由体积函数参数化。
PrimX表示法的目标是近似这个体积函数,通过一组分布在网格表面的体积原始图元来实现。每个原始图元是一个小体素,由其3D位置、全局缩放因子和对应的空间变化特征负载参数化。这些原始图元的加权组合用于近似纹理网格。
3.1.2 从纹理网格计算PrimX
我们介绍了一种高效的拟合算法,可以从输入的纹理网格中快速计算出PrimX。这个过程包括初始化和微调两个步骤。
初始化: 我们假设所有纹理网格都以GLB格式提供,包含三角网格、纹理和材料映射以及相应的UV映射。我们首先在网格表面上均匀随机采样得到候选点,然后执行最远点采样以获得所有原始图元的有效初始位置。我们计算每个原始图元到其最近邻的距离,作为每个原始图元的初始缩放因子。
微调: 即使初始化提供了对目标函数的相当好的估计,我们通过梯度下降的快速微调过程可以进一步减少近似误差。我们优化了初始化的PrimX,使用基于回归的损失函数对SDF、反照率和材料值进行优化。
3.2 原始图元压缩
在这个阶段,我们介绍了基于块的压缩方案,旨在将每个原始图元的有效载荷压缩成潜在的标记,以便于高效的生成建模。
3.3 潜在原始图元扩散
在PrimX和相应的VAE的基础上,我们将3D对象生成问题转化为学习大规模数据集上的分布。我们的目标是训练一个扩散模型,该模型以随机噪声和条件信号为输入,并预测PrimX样本。
这个模型学习通过去噪步骤来预测噪声,同时给定条件信号。由于PrimX的置换等变性,我们可以使用基于Transformer的架构来处理每个原始图元作为标记,而无需位置编码
方法论总结
- PrimX:提出了一种新的3D表示方法,将3D形状、纹理和材料表示为紧凑的N×D张量。
- 原始图元压缩:使用3D VAE对每个原始图元进行空间压缩,得到潜在的原始图元标记。
- 潜在原始图元扩散:利用Diffusion Transformers (DiT)对潜在原始图元标记的全局相关性进行建模,用于生成建模。
实验
- 论文详细描述了实现细节、数据标准化、条件信号、模型细节和推理过程。
- 通过定量和定性实验评估了所提出方法的有效性,并与现有的图像到3D和文本到3D任务的方法进行了比较。