已开源！无限场景生成和高效数据迁移：3D金字塔扩散模型斩获ECCV24 Oral_pyramid+diffusion+for+fine+3d+large+scene+generati-CSDN博客

本文链接：https://blog.csdn.net/soaring_casia/article/details/142183745

作者主页：
https://yuheng.ink/
论文标题：
Pyramid Diffusion for Fine 3D Large Scene Generation

导读：

本文通过设计一种新颖的金字塔扩散模型，为三维室外场景生成提供了一种从粗到细的策略。本文对金字塔扩散模型进行了大量实验，证明它能以与现有方法相当的计算资源生成更高质量的三维场景。此外，本文的金字塔扩散方法还可以扩展到无限场景的创建。©️【深蓝AI】编译

图1｜金字塔离散扩散模型示意图©️【深蓝AI】编译

1. 摘要

扩散模型在生成二维图像和小尺度三维物体方面表现出了显著的效果。然而，它们在合成大规模三维场景中的应用却很少被探索。这主要是因为三维场景数据（尤其是户外场景）固有的复杂性和庞大的规模，以及综合真实世界数据集的有限性，使得训练一个稳定的场景扩散模型是比较困难的。在本工作中，作者探索了如何使用由粗到细的范式有效地生成大规模三维场景，他引入了一个框架，即金字塔离散扩散模型（PDD），该模型采用尺度变化的扩散模型来逐步生成高质量的户外场景。在对PDD进行一系列实验验证后，其结果证明了作者在无条件和有条件生成三维场景方面的成功探索。此外，研究者展还示了PDD模型的数据兼容性：在一个数据集上训练的PDD模型可以轻松地在另一个数据集上进行微调。

本研究目前已开源，地址为：
https://github.com/yuhengliu02/pyramid-discrete-diffusion

2. 引文

三维场景生成的任务是创建模拟现实世界三维复杂环境的数字表象，从而让人们对周围的有形环境有更细致入微的了解。这项技术在自动驾驶、虚拟现实和机器人操控等基础计算机视觉任务中起着至关重要的作用。然而，由于高质量的大型三维场景固有的庞大尺寸、缺乏大规模三维场景数据集，因此是极难合成的。

另一方面，扩散模型在生成二维图像或小规模三维物体方面的研究取得了令人瞩目的成果。然而，在三维场景生成中使用扩散模型并非易事。一方面，最先进的扩散模型会占用大量内存，并且需要相当长的训练时间，这在生成具有大规模和复杂细节的三维场景时尤其具有挑战性。另一方面，扩散模型需要大量的训练数据，而捕捉大规模三维场景本身就是一个具有挑战性且正在进行的研究课题。因此，只有少数尝试将扩散模型直接应用于三维户外场景，这导致生成效果不稳定，从而导致性能不佳。

为了解决这些挑战，现有的研究主要集中在条件生成上，并借助场景图或二维地图等附加信号来提供指导。尽管如此，这种条件指导并不总是可行的，从而限制了这些方法的通用性。受广泛应用于图像超分辨率的从粗到细理念的启发，作者引入了金字塔离散扩散模型 (PDD)，这是一个无需依赖额外指导即可逐步生成大型三维场景的框架。

本文提出的算法首先生成小规模的三维场景，然后逐步增加规模。在每个尺度级别，本文提出的算法学习一个单独的扩散模型。该模型将前一个尺度生成的场景作为条件（第一个扩散模型除外，它将噪声作为输入），并合成更大规模的三维场景。直观地说，这种多尺度生成过程将具有挑战性的无条件生成任务（即高质量三维场景生成）分解为几个更易于管理的条件生成任务。这种分离允许每个扩散模型专门生成粗糙结构（较小尺度）或复杂细节（较大尺度）。在最高尺度上，作者采用了一种称为场景细分的技术，该技术涉及将大场景划分为多个较小的片段，然后使用共享扩散模型进行合成。

这种方法缓解了由于三维场景体积过大而导致的模型过大的问题。而多尺度设计的一个重要功能是能够促进跨数据迁移应用，从而大大节省训练资源。作者最后提出了PDD框架的扩展功能，通过场景细分来实现无限的三维场景生成，从而证明了该方法的可扩展性。

图2｜所提出的金字塔离散扩散模型的框架结构©️【深蓝AI】编译

3. 相关工作

3.1 二维图像的扩散模型

随着生成模型的不断发展，扩散模型的地位日益突出，尤其是在二维图像创建中的应用。为了通过扩散模型生成高保真图像，本文提出了一种多阶段扩散过程。此过程首先使用初始扩散模型生成粗分辨率图像，随后，第二个扩散模型将此初始输出作为输入，将其细化为更高分辨率的图像。这些级联扩散可以迭代应用以实现所需的图像分辨率。作者注意到，由于增加了一个额外的维度，生成细粒度的三维数据比二维数据更具挑战性。因此，本文工作受到上述多阶段二维方法的启发，以探索它们在三维环境中的适用性，他还希望利用这种结构的优势来解决三维场景中数据集的稀缺问题。

3.2 用于三维生成的扩散模型

作为一种稀疏且内存高效的表示，三维点云已广泛应用于各种计算机视觉应用，如数字人、自动驾驶和三维场景重建。点云生成旨在从随机噪声或扫描的激光雷达点中合成三维点云。即便点云的内存效率是一项宝贵的属性，但它给点云生成任务带来了不小的困难。现有的研究主要集中于使用生成对抗网络（GAN）、变分自编码器（VAE）或矢量量化变分自编码器（VQ-VAE）作为此任务的主干。然而，这些模型的高保真生成能力有限，并且以训练不稳定而闻名。作为上述生成模型的替代方案，扩散模型在生成二维图像方面表现出色，为计算机视觉领域带来了革命性的变化。但迄今为止，尚未有研究可以彻底将扩散模型应用于三维点云生成。点体素扩散建议通过扩散过程生成原始点云，而LION和DPM在去噪过程中使用点云的潜在表示。然而，所有这些方法都侧重于对象级点云，不能简单地扩展到场景级点云。与本文最相似的工作，其方法中扩散模型在场景级点云数据集上进行训练以用于合成任务。然而，由于扩散模型的容量限制，使用单一扩散模型生成场景级点云的结果并不令人满意，例如不理想的整体或缺乏细粒度的对象。基于此前种种，作者于本文中提出一种金字塔离散扩散模型，降低了金字塔每个级别的难度，从而生成具有更真实、更细粒度细节的场景点云。

3.3 三维大规模场景生成

对于自动驾驶等复杂动态场景任务，生成大规模三维场景是一项重要且极具挑战性的任务。三维场景上的生成模型可能为场景分割、自动驾驶等任务提供无限的训练数据。现有工作首先生成二维场景然后将其“提升”到三维来简化此任务。虽然这种设计对于填充有规则几何形状（例如建筑物）的城市场景很有效，但它不容易推广到具有更细粒度物体（例如行人、汽车、树木等）的场景。在本文中，作者使用扩散模型直接生成三维户外场景，其中包括大量具有语义的小物体。

4. 方法

本文所提出的金字塔离散扩散（PDD）模型包含多尺度模型，能够从较小的尺度逐步生成高质量的三维场景。PDD首先扩展了三维数据的标准离散扩散（详情阅读4.2节），然后提出了一种场景细分方法以进一步降低内存需求（详情阅读4.3节）。作者还展示了PDD 在特定场景中的两个实际应用（详情阅读第4.4节）。

4.1 离散扩散

本文专注于学习基于三维语义场景的数据分布。具体来说，语义场景以独热格式表示，即 $\textit{i.e.,} \mathbf{X}\in \{0,1\}^{h \times w \times d \times c}$ ，其中 $h$ 、 $w$ 和 $d$ 分别表示场景的尺寸， $c$ 表示独热标签的大小。

离散扩散已被提出用于生成包括语义场景在内的离散数据。它涉及将马尔可夫转移矩阵应用于离散状态以进行噪声扩散。在前向过程中，原始场景 $\mathbf{X}_0$ 逐渐被破坏为 $t$ 步噪声映射 $\mathbf{X}_t$ ，其中 $=1,\cdots,T$ 。每个前向步骤都可以由马尔可夫均匀转移矩阵 $\mathbf{Q}_t$ 定义为 $\mathbf{X}_t=\mathbf{X}_{t-1} \mathbf{Q}_t$ 。基于马尔可夫特性，作者可以直接从 $\mathbf{X}_0$ 导出 $t$ 步场景 $\mathbf{X}_t$ ，其累积转移矩阵 $\bar{\mathbf{Q}}_t=\mathbf{Q}_1 \mathbf{Q}_2 \cdots \mathbf{Q}_t$ ：

$q\left(\mathbf{X}_t \mid \mathbf{X}_0\right)=\operatorname{Cat}\left(\mathbf{X}_t ; \mathbf{P}=\mathbf{X}_0 \bar{\mathbf{Q}}_t\right)$

其中 $\operatorname{Cat}(\mathbf{X}; \mathbf{P})$ 是独热语义标签 $\mathbf{X}$ 的多元分类分布，概率由 $\mathbf{P}$ 给出。最后，最后一步 $T$ 处的语义场景 $\mathbf{X}_T$ 应该为均匀离散噪声的形式。在逆过程中，使用由 $\theta$ 参数化的可学习模型通过 $\tilde{p}_\theta\left(\tilde{\mathbf{X}}_{0} \mid \mathbf{X}_t\right)$ 预测去噪语义标签。随后应用重新参数化技巧来获得逆过程 $p_\theta\left(\mathbf{X}_{t-1} \mid \mathbf{X}_t\right)$ ：