【Diffusion】3D-aware Image Generation using 2D Diffusion Models

文章提出了一种新的3D感知图像生成方法,通过将任务转化为多视图2D图像集生成,利用2D扩散模型增强生成能力。结合单目深度估计的深度信息,仅用静态图像构建训练数据。在大规模数据集ImageNet上训练,生成的图像质量超过现有方法,尤其在处理大视角和未对齐数据时表现出色。
摘要由CSDN通过智能技术生成

利用 2D 扩散模型的新型 3D 感知图像生成方法。我们将 3D 感知图像生成任务表述为多视图 2D 图像集生成,并进一步形成顺序无条件-条件多视图图像生成过程。这使我们能够利用二维扩散模型来增强该方法的生成建模能力。此外,我们结合来自单目深度估计器的深度信息,仅使用静态图像构建条件扩散模型的训练数据。
我们在大规模数据集(即 ImageNet)上训练我们的方法,这是以前的方法无法解决的。它产生的高质量图像明显优于以前的方法。此外,我们的方法展示了其生成大视角实例的能力,即使训练图像是多样化且未对齐的,是从“野外”现实世界环境中收集的。

请添加图片描述

介绍

由于其在 VR/AR、电影制作和艺术设计等众多应用,学习生成 3D 资产已成为一项日益突出的任务。最近在3D感知图像生成方面取得了重大进展,提出了多种 方法[ 43,4,6,31,52,3,33,9 ] 。3D 感知图像生成的目标是训练能够显式控制 3D 相机姿态的图像生成模型,通常仅使用非结构化 2D 图像集合。

大多数现有的 3D 感知图像生成方法依赖于生成对抗网络 (GAN) [ 8 ],并利用神经辐射场 (NeRF) [ 25 ]或其变体作为 3D 场景表示。虽然在对象级生成方面已经证明了有希望的结果,但将这些方法扩展到大规模、野外数据,这些数据的几何形状和外观变化明显更加复杂,仍然是一个挑战。

另一方面, 扩散模型(DM) [ 47,12,49 ]因其在十亿级图像数据集上卓越的生成建模性能而越来越受到认可[ 36,34,38 ]。事实证明,DM已经超越GAN,成为复杂图像生成任务的最先进模型 [ 30,13,7,14 ]。然而,将 DM 应用于 3D 感知图像生成任务并不简单。一个突出的障碍是训练数据,因为用于 3D生成的训练 DM需要原始3D资产,因为其基于回归的学习性质 [ 27,24,54,29,44 ]。

为了利用 DM 的强大功能和 2D 数据的充足可用性,我们在本文中的核心思想是将3D 感知生成制定为多视图 2D 图像集生成任务。对于这项新制定的任务,必须解决两个关键问题。第一个是如何应用 DM 来生成图像集。我们的解决方案是将集合生成转换为连续的无条件-条件生成通过使用概率链式法则分解实例的多个视图的联合分布来进行处理。更具体地说,我们使用无条件 DM 对实例的初始视图进行采样,然后通过条件 DM 以先前视图作为条件对其他视图进行迭代采样。这不仅将模型的输出最小化为每代单个图像,而且还赋予其处理可变数量的输出视图的能力。

第二个问题是缺乏多视图图像数据。受到最近一些研究 [ 10,2 ]的启发,我们通过单目深度估计技术将深度信息附加到图像数据中,并使用深度仅使用静态图像来构造多视图数据。然而,我们发现天真地应用[ 10 ]的数据构建策略可能会导致训练和推理之间的领域差距。为了缓解这个问题,我们建议额外的训练数据增强策略,可以提高生成质量,特别是对于大视角下的结果。

我们在大型多类数据集 ImageNet [5] 和几个具有显着几何变化的较小单类别数据集上测试了我们的方法 。结果表明,我们的方法大幅优于 ImageNet 上最先进的 3D 感知 GAN,证明了我们新颖的 3D 感知生成方法显着增强的生成建模能力。它在其他数据集上的表现也优于现有技术,显示出可比的纹理质量但改进了几何形状。此外,我们发现我们的模型能够根据未对齐的训练数据生成大视角(高达 360 度)下的场景,这是一项具有挑战性的任务,进一步证明了我们新方法的有效性。

这项工作的贡献总结如下:

我们提出了一种使用 2D 扩散模型的新型 3D 感知图像生成方法。该方法是基于 3D 感知生成的新公式设计的,即顺序无条件-条件多视图图像采样。

我们在大规模野外数据集 (ImageNet) 上进行 3D 感知生成,这是以前的 3D 感知生成模型无法解决的问题。

我们展示了我们的方法从未对齐数据(高达 360 度)生成大角度的能力。

扩散模型

扩散模型 [ 47 ]具有精心设计的理论公式和 U-net 架构,使其适合图像建模任务 [ 12 , 49 ]。改进的基于扩散的方法[ 30,13,7,14 ]证明DM 已经超越 GAN ,成为某些图像生成任务的新的最先进模型。此外,扩散模型可以应用于条件生成,从而导致下游图像域任务的蓬勃发展,例如图像超分辨率 [ 39 , 17 ]、修复 [ 23,37,36 ],新颖 视图合成[ 51 ]和 场景合成[ 2,16 ] 。 _ 我们的方法利用 2D 无条件和条件扩散模型以及迭代视图采样过程来解决 3D 感知生成问题。

基于优化的 3D 生成

根据扩散模型理论,U-nets被训练为不同噪声水平下图像分布的 得分函数(对数导数) [ 49 ]。这导致了分数蒸馏采样 (SDS) 技术的发展,该技术已用于使用文本条件扩散模型执行文本到 3D 的转换,其中 SDS 作为多视图目标来优化基于 NeRF 的 3D表示。尽管最近的工作[ 50,19 ]在不同的扩散模型和3D表示上探索了这种技术,但它们不是生成模型,不适合在没有文本提示的情况下随机生成。

深度辅助视图合成

之前的一些工作利用深度信息进行视图合成任务,包括单视图视图合成 [ 10,32 ]和永久 视图生成[ 20,18,2 ] 。相比之下,这项工作处理不同的任务,即2D 图像分布的 3D 感知生成建模。对于我们的任务,我们提出了一种新的顺序无条件-条件多视图图像采样的公式,其中后一个条件生成子例程与新颖的视图合成共享类似的任务。

Method

请添加图片描述
根据我们在第二节中的问题表述。 3.2,我们的第一步是准备数据,其中包括RGBD图像的构建和变形算法的实现(第 4.1节)。然后,我们训练一个无条件 RGBD 扩散模型和一个条件模型,参数化式(1)中的无条件项(第一个)和条件项(其他)。 分别参见7(第 4.2节)。训练后,我们的方法可以生成具有广泛相机姿势范围的各种 3D 感知图像样本(第 4.3节)。我们的方法的推理框架如图 2所示。

RGBD图像构建

为了实现 RGBD 变形,每个图像都需要额外的深度信息。我们采用现成的单目深度估计器 [ 35 ]来预测深度​​图,因为它可以很好地推广到具有不同对象和场景的目标数据集。

RGBD 扭曲运算符

RGBD 扭曲操作Π是一个几何感知过程,确定新视点下部分 RGBD 观测的相关信息。我们的变形算法是使用基于网格的表示和光栅器来实现的。对于 RGBD 图像,我们通过将像素反投影到 3D 顶点并定义图像网格上相邻像素的边缘来构建网格。请添加图片描述
目标RGBD图像首先变形为新视图,然后变形回原始目标视图。该策略会在图像中产生由几何遮挡引起的孔洞。尽管很简单,但使用此策略构建的条件相当于将真实图像扭曲到朗伯表面的目标视图,或非朗伯区域的近似值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值