论文带读——3D Neural Field Generation using Triplane Diffusion-CSDN博客

本文链接：https://blog.csdn.net/qq_45962272/article/details/128152316

本文提出了一种基于神经场的3D场景生成方法，利用2D扩散模型生成三平面特征，结合3D归纳偏置，实现了高质量和多样化的3D场景生成。此方法克服了现有3D GAN模型的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文带读——3D Neural Field Generation using Triplane Diffusion

————YssssMikey

Tips: 我会基本上几天更新一篇论文引读，一般是AIGC模型——3D+Diffusion方向每日在Arxiv上新发布的最新Paper来导读，喜欢支持的伙伴可以支持关注点赞哦！！对于文章中可能出现的错误和建议可以在评论区打出（本人也只是刚入AIGC方向的小朋友）
在这里插入图片描述

Summary

提出直接使用SOTA 2D diffusion model¹来生成triplane，使扩散模型来控制生成的神经场。本文对训练数据(Shapenet meshes) 转换为连续占用字段²并分解为一组axis-aligned triplane feature representations(轴向三平面特征表示)。在实验中，3D训练场景都有2D特征平面表示，这样可以直接在这些表示上直接训练现有的2D扩散模型。

Key in this paper approach:

Key to our approach is our treatment of well-fit triplanes in a shared latent space as ground truth data for training our diffusion model. We show that the latent space of these triplanes is grounded spatially in local detail, giving the diffusion model a critical inductive bias for 3D generation. Our approach gives rise to an expressive 3D diffusion model.

将共享latent space中well-fit triplanes作为ground truth来处理，这些在latent space的triplanes在局部细节上是基本grounded的，这样就使扩散模型在3D生成上有较好的归纳偏置

Intro

提出一种基于神经场的扩散框架来用于3D表示学习。主要步骤分为以下两部分：

3D 场景的训练集被分解为一组per-scene triplane features (每个场景的三平面特征) & a single , shared feature decoder(单一且共享的特征编码器)
在如上的这些三平面上训练2D diffusion model，训练后的diffusion model可以在推理时用于生成新的3D场景

这样将三平面→多通道2D image,就可将生成与渲染分开，有利于直接使用SOTA 2D diffusion的backbone.

在这里插入图片描述

上图是denoising process.展示了在推理过程中的迭代去噪功能，以及通过联合学习MLP decode三平面噪声得到的形状。（将三平面特征→多通道特征图像）

3D 场景表示：使用神经场将场景表示为连续函数可以很好的扩展场景复杂性。最初的NERF是只使用单一的、大型的MLP来表示整个场景。后面主要的改进是利用局部函数学习，或使用混合显式-隐式表示，使用小的MLP来进行推理，且在局部场景细节表现的更好。本文采用的是EG3D介绍的混合三平面表示，但为了与去噪框架兼容做了一些调整。

对于现在存在的工作single-latent，只是利用3D解码器将场景表示从1D转换到了3D，而未直接进行3D扩散，这样就失去了归纳偏置而效果较差。

Contribution

提出了利用2D diffusion model backbone并且有内置3D归纳偏置的框架来用于三维场景的扩散，
该方法有能力生成高保真和多样化的3D场景，有余SOTA 3D GANs

Method

在这里插入图片描述

Pipeline :

Step-1: 用trained DDPM将latent noise→feature maps，再将它转换成三平面表示
Step-2: 用局部条件occupancy Net将三平面（相加 $F_{xy}+F_{xz}+F_{yz}$ ）解码为最终的神经场

Triplane Diffusion Framework(三维形状的神经场扩散NFD):

Representing a 3D Scene using a Triplane

使用occupancy fields 的3D场景表示，这样的神经场的输出是二进制的，来表明在对象的内部还是外部，并且M=1.

Triplane representation:是一种混合的显-隐式的神经场网络架构; 其使用三个二维特征平面 $f_x,f_y,y_z \in R^{N×N×C}$ （每个fearture的维度是** $N \times N \times C$ ）和一个轻量级decoder(MLP)——解释平面特征。

通过将3D坐标投影到每个轴向平面( $x - y, x - z, y - z$ )，查询和聚合各自的特征，并利用 $MLP_\phi$ 解码上述处理过的feature （通过求和来进行特征聚合）

$NF(x)=MLP_\phi(f_{xy}(x)+f_{yz}(x)+f_{xz}(x))$

MLP和feature planes可以联合优化来表示shape的occupancy field
Representing a Class of objects with triplanes

将shape dataset→triplane dataset，这样就可以在learned feature planes上训练扩散模型。

但是要注意的点：不能对每个对象进行训练一个三平面，因为MLP和特征平面是联合学习的，所以为了将数据集中每个对象的MLP推广到有扩散模型生成的triplane，我们应当为多个对象联合优化特征平面，并使用一个shared across all objects 的decoder.

上述联合优化的效果：联合优化得到的feature planes和一个MLP能够解释任何三平面，在推理时也可以利用这个MLP来解码我们模型生成的特征平面

在训练过程：
- J：每个对象J个点坐标
- I：包含I个对象的dataset
- $NF^{(i)}(x_j^{(i)})$ : 每个点的预测占位值（occupancy values）
- $O_j^{(i)}$ : ground truth 占位值
- $x_j^{(i)}$ : 第i个场景的第j个点
在训练过程中，J=10M，其中5M个点在整个体积中均匀采样，5M个点在物体表面附近采样，以下是训练目标（每个点的预测占位值和ground truth的占位值之间的L2 loss）：

$\mathcal{L}_{\mathrm{NAIVE}}=\sum_{i}^{I} \sum_{j}^{J}\left\|_{\mathrm{NF}^{(i)}}\left(\mathbf{x}_{j}^{(i)}\right)-\mathrm{O}_{j}^{(i)}\right\|_{2}$
Training a Diffusion Model for Triplane Features中：

$\mathcal{L}_{\mathrm{DDPM}}=\mathbb{E}_{t, \mathbf{f}_0, \boldsymbol{\epsilon}}\left[\left\|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_\theta\left(\sqrt{\bar{\alpha}_t} \mathbf{f}_0+\sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}, t\right)\right\|^2\right]$

$f_0 ～q(f_0)$ ：数据分布中抽取的随机样本

$f_T ～N(f_T;0,I)$ ：纯高斯噪声组成的三平面特征图，分T步逐步去噪

$f_{0...T}∈ R^{N ×N ×3C}$ ：三平面特征（在扩散模型中将三个三平面特征堆叠到一个图像中）
Regularizing Triplanes for Effective Generalization

简单的利用（a shared triplane decoder + a dataset of triplane features),在从这些三平面特征上训练一个扩散模型后进行推理得到的shape具有人工制品的嫌疑。

因此，文章中在优化过程中对三平面特征进行了正则化。
- 其在loss中加入了权重为 $\lambda_1$ 的TV（total variation）正则项**来使三平面特征的分布更类似于自然图像的manifold流型。
- 对特征平面归一化，加入了在权值为 $\lambda_2$ 的三平面特征上包含L2正则项**来抑制离群值
- 加入一个显式密度正则项EDR，从体积中采样一组随机点，用随机向量 $\omega$ 来抵消这些点，用MLP来计算他们的均方误差 $EDR (NF (x)， ω) =‖NF (x)−NF (x + ω)‖_2^2$ ——上述的目的是来学习smooth outside-of-shape volume
因此最终的训练Loss如下：

$\begin{aligned} \mathcal{L}=\sum_{i}^{N} \sum_{j}^{M} &\left\|\mathrm{NF}^{(i)}\left(\mathbf{x}_{j}^{(i)}\right)-\mathrm{o}_{j}^{(i)}\right\|_{2} \\ &+\lambda_{1}\left(\mathrm{TV}\left(\mathbf{f}_{x y}^{(i)}\right)+\mathrm{TV}\left(\mathbf{f}_{x z}^{(i)}\right)+\mathrm{TV}\left(\mathbf{f}_{y z}^{(i)}\right)\right) \\ &+\lambda_{2}\left(\left\|\mathbf{f}_{x y}^{(i)}\right\|_{2}+\left\|\mathbf{f}_{y z}^{(i)}\right\|_{2}+\left\|\mathbf{f}_{x z}^{(i)}\right\|_{2}\right) \\ &+\operatorname{EDR}\left(\mathrm{NF}\left(\mathbf{x}_{j}^{(i)}\right), \boldsymbol{\omega}\right) \end{aligned}$
Sampling Novel 3D Shape

推理过程中shape的无条件生成分为两个Steps
- 从训练的扩散模型中采样三平面（与从扩散模型中采样图像是相同的）
  
  $\mathbf{f}_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{f}_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta\left(\mathbf{f}_t, t\right)\right)+\sigma_t \boldsymbol{\epsilon}$
  
  去噪过程的最后结果是归一化的三平面特征图像分布中的一个样本 $f_0$ ，然后对其进行反归一化，并将生成的特征分割为 $f_{xy},f_{yz},f_{xz}$ ，生成一组三平面特征
- 查询神经场并提取meshes
  
  将上述得到的三平面特征与pre-trained的MLP相结合来查询神经场，再用marching cubes algorithm进行提取mesh

Conclusion:

提出了3D-Aware diffusion model，使用2D diffusion 的backbone来生成三平面特征，将强大的2D diffusion model和3D物体进行连接。与现有的3d-aware模型相比大大提高了生成对象的质量和多样性。

limitations：生成速度很慢，这样的慢采样同DDPM的问题一样

Future works:

文章中是利用生成occupancy fields的方法，但实际上可以扩展到用三平面表示的任何类型的神经场
本文做的是无条件生成，但可以将其调整到文本、图像或其他输入
对于慢采样问题，可以用更有效的采样器[参考Elucidating the Design Space of Diffusion-Based Generative Models]来解决，实现适时合成的效果

文章使用的是ADM（Improved Denoising Diffusion Probabilistic Models） ↩︎
可以去看看Occupancy Networks: Learning 3D Reconstruction in Function Space ↩︎