NeRF & NeRF Studio 使用经历（个人记录）

最新推荐文章于 2024-08-09 08:30:54 发布

endl12

最新推荐文章于 2024-08-09 08:30:54 发布

阅读量6.7k

点赞数 12

文章标签：计算机视觉

本文链接：https://blog.csdn.net/endl12/article/details/131823039

版权

本文详细介绍了NeRF技术的特性、原理、改进措施，包括利用MLP模拟5D函数和体渲染技术来表示和重建场景。此外，还深入探讨了NeRF Studio的配置、使用方法和优化策略，如加入位置编码和层次化采样。在训练过程中，通过CUDA和PyTorch等工具，优化模型以提高渲染效率和质量。NeRF Studio提供了一个综合的NeRF模型调用接口，包含Nerfacto等多种模型，简化了训练和可视化流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于NeRF

1. 特性

NeRF技术会为每个场景单独优化一个神经网络

对于合成数据：NeRF使用真实的相机姿态、内参和边界

对于真实数据：使用COLMAP从运动软件包估计这些参数

NeRF技术在不需要显式地重建场景几何的情况下，可以从输入的 RGB 图像数据集中学习场景的连续体积表示

2. 原理

2.1 利用MLP模拟5D函数以表示连续空间场景

方法：用一个5D向量值函数表示连续场景，其输入为3D坐标 x = (x, y, z) 和2D视角方向 (θ, φ)（实践中用单位向量 d表示），输出为该坐标发射的颜色 c = (r, g, b) 和体积密度 σ。用一个MLP网络 FΘ : (x, d) → (c, σ) 来近似这个连续的5D场景表示，并优化权重 Θ 以将每个输入的5D坐标映射到其对应的体积密度和方向发射颜色。

为了保证多视角一致性，我们限制网络仅将体积密度σ作为位置x的函数进行预测，同时允许将RGB颜色c作为位置和观察方向的函数进行预测。为了实现这一点，MLP FΘ首先用8个全连接层（使用ReLU激活函数和每层256个通道）处理输入的3D坐标x，并输出σ和一个256维的特征向量。然后，将这个特征向量与摄像机光线的观察方向连接，并传递到另一个全连接层（使用ReLU激活函数和128个通道），输出视角相关的RGB颜色。