【ECCV 2024】LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

大型多视图高斯模型的高分辨率3D内容生成

Jiaxiang Tang1, Zhaoxi Chen2, Xiaokang Chen1, Tengfei Wang3, Gang Zeng1, Ziwei Liu2

1 Peking University 2 S-Lab, Nanyang Technological University 3 Shanghai AI Lab

(page, github)

摘要

3D 内容创作在质量和速度方面都取得了重大进展。虽然目前的前馈模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需的大量计算的限制。在本文中,介绍了大型多视图高斯模型 (LGM),这是一个新颖的框架,旨在从文本提示或单视图图像生成高分辨率 3D 模型。主要见解有两方面:(1)3D 表示:提出多视图高斯特征作为一种高效而强大的表示,然后可以将它们融合在一起实现可区分的渲染。 (2)3D 主干:提出一个非对称 U-Net 作为对多视图图像进行操作的高吞吐量主干,它可以通过利用多视图扩散模型从文本或单视图图像输入生成。大量实验证明了本文方法的高保真度和效率。值得注意的是,在将训练分辨率提高到 512 的同时,保持在5 秒内生成 3D 对象的快速速度,从而实现高分辨率 3D 内容生成。
在这里插入图片描述
图1: 从单视图图像或文本生成5秒内的高分辨率3D高斯。

引言

自动3D内容创建在许多领域都有很大的潜力,如数字游戏、虚拟现实和电影。基本的技术,如image-to-3D和text-to-3D,通过显著降低专业3D艺术家手工劳动的要求来提供显著的好处,使那些没有专业知识的人能够参与3D资产创造。

以往关于三维生成的研究主要集中在分数蒸馏采样(SDS)[22,24,36,47]上,以将二维扩散先验提升到三维生成中。这些基于优化的方法可以创造出高度的价值 从文本或单视图图像输入的详细3D对象,但它们经常面临生成速度慢和多样性有限等问题。最近的进展需要使用单视点或少镜头图像[15,19,52,55,57]的大型重建模型来生成三维对象,大大减少了时间的恢复。这些方法利用 transformer直接回归基于三平面的[2]神经辐射场(NeRF)[32]。然而,由于低分辨率的训练,这些方法不能产生详细的纹理和复杂的几何形状。我们认为它们的瓶颈是 1)低效的3D表示,以及2)高度参数化的3D主干。例如,给定一个固定的计算预算,三平面代表 LRM [15]的重定向限制为分辨率32,而由于在线卷渲染,渲染图像的分辨率限制为128。尽管如此,这些方法都受到计算密集型基于transformer主干的影响,这也导致了有限的训练分辨率

为了解决这些挑战,我们提出了一种新的方法来训练少镜头的三维重建模型,而不依赖于基于三平面的体积渲染或transformer[15]。相反,我们的方法采用 3D高斯飞溅 [17],其中特征由非对称 U-Net 预测为高通量主干 [40,46]。该设计的动机是为了实现高分辨率的三维生成,这需要一个具有表达性的3D表示和在高分辨率下进行训练的能力。高斯飞溅突出了1)紧凑地表示一个场景的表现力与单个三平面,以及2)渲染效率与大体积渲染相比,便于高分辨率训练。然而,它需要足够数量的三维高斯分布来准确地表示详细的三维信息。受飞溅图像[46]的启发,我们发现U-Net能够有效地生成足够的 来自多视图像素的高斯数,同时保持了高分辨率训练的能力。请注意,与以前的方法[15,62]相比,我们的默认模型能够生成高达65,536个高斯分布的三维模型,并且可以以分辨率为512的方式进行训练,同时仍然保持前馈回归模型的快速生成速度。如图1所示,我们的模型同时支持图像到3d和文本到3d的任务,能够在大约5秒内产生高分辨率、细节丰富的3D高斯数据。

我们的方法采用了一种类似于Instant3D[19]的多视图重建设置。在这个过程中,从每个输入视图中嵌入的图像和摄像机被转换为一个特征图,这可以是被解码和融合成一组高斯分布。可微分渲染应用于从融合的三维高斯中渲染新的视图,允许在高分辨率下的端到端图像级监督。到增强 在所有输入视图之间共享信息,注意力块被集成到U-Net的更深层次中。这使我们能够仅使用回归目标在多视图图像数据集[12]上训练我们的网络。在推理过程中,我们的方法利用现有的图像或文本进行多视图扩散模型[27,43,44,51],为我们的高斯融合网络生成多视图图像作为输入。为了克服实际 3D 对象渲染的多视图图像与使用扩散模型合成之间的域差距,我们进一步提出了两个适当的数据增强来进行稳健的训练。最后,考虑到对下游任务多边形网格的偏好,我们设计了一种通用算法,将生成的3D高斯转换为平滑和纹理网格。

综上所述,我们的贡献是:

1.提出一种新的框架,通过融合多视图图像中的信息来生成高分辨率的三维高斯分布,这些信息可以从文本提示或单视图图像中生成。
2.设计一种基于非对称 U-Net 的架构,用于高效端到端训练,分辨率明显更高,研究鲁棒训练的数据增强技术,并提出一种从 3D 高斯中提取通用网格的方法。
3.大量的实验证明我们的方法在文本到三维和图像到三维任务中都具有优越的质量、分辨率和效率。

相关工作

高分辨率三维生成。目前生成高保真度三维模型的方法大多依赖于基于sds的优化技术。它需要具有表现性的3D表示和高分辨率 通过嗅觉监督,有效地将详细信息从二维扩散模型中提取成三维模型。由于与NeRF的高分辨率渲染相关的显著内存消耗,Magic3D [ 22]首先将NeRF转换为DMTet [42],然后训练第二阶段进行更精细的分辨率细化。DMTet几何图形和哈希网格[34]纹理的混合表示能够捕获高质量的3D信息,这可以使用可微栅格化[18]有效地呈现。 Fantasia3D[6]探索了直接训练DMTet与解纠缠的几何形状和外观生成。随后的研究[8,20,21,47,49,54]也采用了类似的基于网格的阶段,使高分辨率监督增强细节。另一个很有前途的三维表示方法是高斯溅射[17]因为其表达性和高效的渲染能力。尽管如此,用这种方法获得丰富的细节,需要在优化过程中进行适当的初始化和仔细的致密化 [10, 59]。相比之下,我们的工作研究了一种前馈方法来直接生成足够数量的三维高斯分布。尽管如此,使用这种方法获得丰富的细节需要在优化[10,59]期间进行适当的初始化和仔细的致密化。相反,我们的工作研究了一个前馈系统 直接生成足够数量的三维高斯分布的方法。

高效的三维生成。与基于sds的优化方法相比,前馈3D原生方法能够在大规模3D数据集[11,12]上进行训练后的几秒钟内生成3D资产 .一些工作试图在三维表示上训练文本条件的扩散模型,如点云和体积[1,5,9,16,26,33,35,53,58,61]。然而,这些方法要么不能很好的泛化到大型数据集,要么只产生具有简单纹理的低质量的3D资产。最近,LRM [15]首次表明,一个回归模型可以被训练为在短短5秒内从单个视图图像中稳健地预测NeRF,并可以进一步导出到网格中。Instant3D [19] 通过一个文本到多视图的图像的扩散模型和一个多视图的LRM来执行快速和多样化的文本到3d的生成。下面的工作将LRM扩展到预测给定的多视图图像[52]的姿态,结合扩散[57],并专门用于人类数据[55]。这些前馈模型可以用简单的回归目标进行训练,并显著加快三维对象生成的速度。然而,他们的基于三平面nerf的表示被限制在一个相对较低的分辨率内,并限制了最终一代的保真度。相反,我们的模型试图训练一个高保真的前馈系统 模型采用高斯飞溅和U-Net。

高斯飞溅生成。我们特别讨论了最近使用Gaussian Splatting[4,7,23,38,56]进行生成任务的方法。DreamGaussian[47]首先将三维高斯算法与基于sds的优化方法相结合,以减少生成时间。GSGen [10]和GaussianDreamer[59]探索了文本到三维高斯生成的各种密集化和初始化策略。尽管实现了加速,但使用这些基于优化的方法生成高保真的三维高斯函数仍然需要几分钟。TriplaneGaussian三平面高斯[62]将高斯溅射引入到LRM的框架中。这种方法首先将高斯中心预测为点云,然后将它们投影到一个三平面上以获取其他特征。尽管如此,高斯函数的数量和三平面的分辨率仍然有限,影响了生成的高斯函数的质量。Splatter image飞溅图像[46]提出利用U-Net从单视图图像中预测输出特征图上的三维高斯数像素。这种方法主要关注单视图或双视图场景,将其泛化到大规模数据集。同样,PixelSplat [3]从场景数据集中预测两个姿态图像的每个像素的高斯参数。我们设计了一个4视图重建模型,结合现有的多视图扩散模型,用于一般文本或图像的高保真三维对象生成。

方法

首先提供有关高斯溅射和多视图扩散模型的背景信息(第 3.1 节)。然后介绍本文高分辨率 3D 内容生成框架(第 3.2 节),其中核心部分是不对称的 U-Net主干,用于从多视图图像中预测和融合 3D 高斯(第 3.3 节)。设计了仔细的数据增强和训练管道来增强鲁棒性和稳定性(第 3.4 节)。最后,描述了一种从生成的 3D 高斯(第 3.5 节)中提取平滑纹理网格的有效方法。

Preliminaries

高斯飞溅。正如 [17] 中介绍的,高斯溅射使用一组 3D 高斯来表示 3D 数据。具体来说,每个高斯由一个中心

  • 15
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值