NeRF 与 Gaussian Splatting 完整教程

最新推荐文章于 2025-03-16 16:44:16 发布

沃洛德.辛肯

最新推荐文章于 2025-03-16 16:44:16 发布

阅读量1.3k

点赞数 25

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_44324007/article/details/144828959

版权

NeRF 与 Gaussian Splatting 完整教程

本教程旨在全面介绍 NeRF（神经辐射场） 和 Gaussian Splatting（高斯点云渲染） 两种先进的3D场景表示与渲染技术。内容涵盖它们的定义、输入输出、训练与推理过程，以及它们在生成、重建、新视角合成和渲染方法中的分类。

什么是 NeRF？

NeRF（Neural Radiance Fields，神经辐射场） 是一种基于深度学习的3D场景重建与渲染技术。由加州大学伯克利分校的研究团队在2020年提出，NeRF 通过训练神经网络来表示和生成复杂的三维场景，能够从不同的视角生成高质量的图像。

主要特点

高精度3D重建：能够从多张二维图像中重建出细节丰富的三维模型。
新视角渲染：可生成从未见过的视角下的逼真图像，实现视角转换。
体积渲染：处理复杂的光照和透明度效果，如雾、玻璃等。
广泛应用：虚拟现实（VR）、增强现实（AR）、电影特效、游戏开发、数字孪生等领域。

工作原理

NeRF 使用多层感知机（MLP）神经网络，输入空间中的一个点（3D 坐标）和视角方向，输出该点的颜色（RGB）和密度（σ）。通过对大量不同视角的图像进行训练，NeRF 学会了空间中颜色和密度的分布，从而能够生成新的视角图像。

什么是 Gaussian Splatting？

Gaussian Splatting（高斯点云渲染） 是一种用于3D场景表示和渲染的方法。与传统的网格模型或基于体积的渲染方法不同，Gaussian Splatting 通过在三维空间中分布大量高斯函数（高斯“点”）来表示场景，实现高效且高质量的渲染。

主要特点

高效渲染：利用并行处理高斯点，实现实时或近实时的渲染。
灵活性强：高斯点可动态调整位置、大小和形状，适应不同需求。
简化数据结构：相比复杂的网格或体积数据结构，点云表示更简洁，降低存储和计算开销。
抗噪性能好：高斯函数的平滑特性在处理噪声和不完整数据时表现出色。

应用场景

实时渲染：适用于游戏、虚拟现实（VR）和增强现实（AR）等需要快速渲染的应用。
3D扫描与重建：快速生成可视化的3D模型。
动画与特效：在电影和动画制作中创建复杂视觉效果。
科学可视化：展示复杂科学数据，如医学成像和工程仿真。

工作原理

Gaussian Splatting 通过在三维空间中分布大量高斯函数，每个高斯函数具有位置、颜色、大小和形状等参数。在渲染过程中，这些高斯点被“撒”到二维图像平面上，并根据其参数进行叠加和混合，最终生成逼真的图像。这种方法充分利用现代GPU的并行计算能力，实现高效渲染。

NeRF 和 Gaussian Splatting 的输入输出

NeRF（神经辐射场）

输入

训练阶段：
- 二维图像：来自多个不同视角的高质量照片。
- 相机参数：每张图像的相机位置和朝向（包括内参和外参）。
- 采样点：在三维空间中对每条光线进行采样，获取多个点的位置和视角方向。
推理阶段：
- 视角参数：新的视角位置和方向，用于生成未见过的视角图像。
- 采样点：在三维空间中对新视角的光线进行采样。

输出

训练阶段：
- 颜色和密度值：对于每个采样点，NeRF 网络输出其颜色（RGB）和密度（σ）。
推理阶段：
- 渲染图像：通过体积渲染算法生成从新视角观察到的二维图像。

Gaussian Splatting（高斯点云渲染）

输入

训练阶段：
- 三维高斯点云：每个高斯点包含位置（x, y, z）、颜色（RGB）、尺寸（σ）等参数。
- 视角参数：相机位置和朝向，用于确定渲染时的投影。
推理阶段：
- 三维高斯点云：已优化的高斯点集合。
- 视角参数：新的相机位置和朝向，用于生成图像。

输出

训练阶段：
- 优化后的高斯参数：位置、颜色、尺寸等参数经过优化以更好地表示目标场景。
推理阶段：
- 渲染图像：根据高斯点云和视角参数，生成从新视角观察到的二维图像。

训练与推理过程

NeRF（神经辐射场）

训练过程

数据准备：
- 收集多视角的二维图像，并记录相应的相机参数（位置、朝向、内参）。
网络架构：
- 使用多层感知机（MLP），输入为三维坐标（x, y, z）和视角方向（θ, φ），输出为颜色（RGB）和密度（σ）。
采样与渲染：
- 对每条光线进行采样，获取一系列采样点。
- 将采样点及其视角方向输入 MLP，得到颜色和密度。
- 使用体积渲染公式综合这些值，生成最终的像素颜色。
损失函数：
- 采用重建损失（如均方误差，MSE），将渲染图像与真实图像比较，计算误差。
- 通过反向传播和优化算法（如Adam）最小化损失，更新网络参数。
迭代训练：
- 重复采样、渲染和优化过程，直至模型收敛，能够准确重建三维场景。

推理过程

输入新视角：
- 提供新的相机参数（位置和朝向），定义希望渲染的视角。
采样与预测：
- 对每条光线进行采样，获取多个采样点的位置和视角方向。
- 将这些点输入已训练好的 MLP，预测每个点的颜色和密度。
体积渲染：
- 使用体积渲染公式将所有预测的颜色和密度进行积分，得到最终的像素颜色。
生成图像：
- 重复上述过程，生成整个图像的新视角渲染结果。

Gaussian Splatting（高斯点云渲染）

训练过程

数据准备：
- 获取多视角的二维图像及其相应的相机参数。
- 通过3D重建或其他技术初始化三维高斯点云。
高斯点初始化：
- 生成初始的高斯点云，覆盖整个三维空间，可能包括随机分布或基于初始扫描数据。
渲染与优化：
- 定义每个高斯点的参数（位置、颜色、尺寸等）。
- 对每个视角，使用高斯点云进行渲染，生成图像。
- 计算渲染图像与真实图像之间的误差（如MSE）。
参数优化：
- 通过反向传播和优化算法（如Adam），调整高斯点的参数，以最小化渲染误差。
- 可能采用层次优化策略，先优化粗略分布，再细化高斯点。
迭代训练：
- 不断调整高斯点的参数，直至高斯点云能够准确表示目标三维场景，并生成高质量的渲染图像。

推理过程

输入新视角：
- 提供新的相机参数（位置和朝向），定义希望渲染的视角。
高斯点渲染：
- 将高斯点云投影到二维图像平面上，每个高斯点根据其参数“撒”在图像上，形成模糊的斑点（splat）。
- 结合所有高斯点的贡献，通过混合和叠加，生成最终的像素颜色。
实时优化（可选）：
- 根据需要，动态调整高斯点以适应新的视角需求，提升渲染质量。
生成图像：
- 完成所有高斯点的渲染和混合，得到最终从新视角观察到的二维图像。

NeRF 和 Gaussian Splatting 的分类

NeRF（神经辐射场）

重建方法：
- 主要用于三维场景的重建，通过学习二维图像之间的几何和材质关系，生成连续的辐射场表示。
渲染方法：
- 具备新视角渲染能力，通过体积渲染公式生成从不同视角观察到的图像。
生成方法（弱相关）：
- 虽然NeRF能生成图像，但其生成过程基于训练数据的场景表示，不属于传统意义上的生成方法（如GAN）。

Gaussian Splatting（高斯点云渲染）

渲染方法：
- 主要是一种基于点云的高效渲染方法，通过高斯函数的投影和混合生成图像。
重建方法（弱相关）：
- 在某些应用中，通过优化高斯点云表示场景，可以视为一种重建过程，但不如NeRF 那样直接用于重建。
生成方法（很弱相关）：
- 本质上不用于生成新场景，更多用于对现有场景的表示和渲染。

分类总结

方法	重建	渲染	生成
NeRF	训练阶段属于重建方法	是，通过体积渲染生成新视角图像	推理阶段属于生成方法
Gaussian Splatting	训练阶段可以部分视为重建	是，高效的实时点云渲染方法	不属于生成方法

解释：
NeRF 在推理阶段更倾向于生成，因为它通过神经网络预测新数据（颜色和密度），然后生成新视角的图像。
Gaussian Splatting 在推理阶段更倾向于渲染，因为它只是基于点云进行几何投影和混合，而不涉及从神经网络生成新数据。

总结

NeRF（神经辐射场）

定义：基于神经网络的3D场景重建与渲染技术。
输入输出：
- 输入：多视角二维图像及相机参数。
- 输出：训练阶段预测颜色和密度，推理阶段生成新视角图像。
训练与推理：
- 训练：通过多视角图像训练MLP，优化网络参数以准确预测颜色和密度。
- 推理：输入新视角参数，采样点通过MLP预测颜色和密度，使用体积渲染生成图像。
分类：主要属于重建和渲染方法，具备弱生成能力。