NeRF原理

游不动的鱼-learning

已于 2023-04-12 20:14:12 修改

阅读量1.2k

点赞数 2

CC 4.0 BY-SA版权

文章标签：计算机视觉人工智能

于 2023-04-03 10:22:35 首次发布

本文链接：https://blog.csdn.net/keeplearning1/article/details/129923446

NeRF是一种基于神经网络的三维重建方法，通过隐式表示实现照片级的视角合成。它利用多层感知机建模3D场景，结合体渲染和位置编码，以2D图像为输入，输出新视角图像。NeRF工作流程包括三维重建和渲染，其中三维重建涉及神经辐射场和位置编码，渲染采用体渲染和分层体积采样。在训练过程中，使用L2损失函数进行优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：[1]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[2]NeRF及其发展https://zhuanlan.zhihu.com/p/512538748

1 NeRF的提出

NeRF是隐式表达进行三维重建的方法，不需要中间三维重建的过程，仅根据位姿内参和图像，直接合成新视角下的图像。
NeRF做到了利用”隐式表示“实现了照片级的视角合成效果，它选择了Volume作为中间3D场景表征，然后再通过Volume rendering实现了特定视角照片合成效果。可以说NeRF实现了从离散的照片集中学习出了一种隐式的Volume表达，然后在某个特定视角，利用该隐式Volume表达和体渲染得到该视角下的照片。

2 NeRF 工作的pipeline

NeRF的工作可简单分为两部分：1)三维重建；2）渲染。

2.1 三维重建

三维重建部分本质上是一个2D到3D的建模过程，利用3D点的位置（x，y，z）及方位视角（θ，φ）作为输入，通过多层感知机（MLP）建模该点对应的颜色color（c）及体素密度volume density（σ），形成了3D场景的”隐式表示“。（Neural Radiance Field Scene Representation部分，即下图的红框部分）

与直接使用x和d作为多层感知器 $f θ (.)$ 的输入相比，位置编码 $γ(\cdot)$ 能够更好地拟合高频信号。由于体积颜色c随观察方向的变化比随三维位置的变化更平稳，观察方向通常用较少的分量进行编码，即 $L_d < L_x$ 。

2.1.1 Neural Radiance Field Scene Representation

该部分的输入是三维位置(x，y，z)和二维方位视角(θ，φ)，输出是颜色c=(r，g，b)和体素密度σ，即利用一个MLP网络近似地表示这种映射F：(x，d) -> (c，σ)，这个映射F就是一种3D场景的”隐式表示“。
该MLP网络先使用8个全连接层处理三维位置(x，y，z)，输出体素密度σ和256维特征向量(因此体素密度σ仅是关于三维位置(x，y，z)的函数)；然后将上面得到的256维特征向量与二维方位视角(θ，φ)concat，接着用4个全连接层处理，输出颜色c=(r，g，b)。
![6.png](https://img-blog.csdnimg.cn/img_convert/1390c87e70f888f355f11fb7d2c16325.png#averageHue=#f8f6f4&clientId=u1ff5de95-ade9-4&from=ui&id=ua7d6ca2a&name=6.png&originHeight=451&originWidth=924&originalType=binary&ratio=1&rotation=0&showTitle=true&size=43861&status=done&style=none&taskId=u05774b77-7174-4724-b163-e3415bdcb45&title=图 2 “图 2”)

2.1.2 positional Encoding

  尽管神经网络是通用的函数近似器，但是研究人员发现，让上图1的MLP网络(F：(x，d) -> (c，σ))直接操作 (x，y，z，θ，φ)输入会导致渲染在表示颜色和几何形状方面的高频变化方面表现不佳，表明深度网络偏向于学习低频函数。因此在将(x，y，z，θ，φ)输入传递给网络之前，使用高频函数将输入映射到更高维度的空间，可以更好地拟合包含高频变化的数据。该高频编码函数为：

这个高频编码函数有点类似傅里叶级数的方式，其中p就是(x，y，z，θ，φ)输入，并且输入均归一化于[-1，1]，在实验中针对于(x，y，z)输入取L=10，针对于(θ，φ)输入取L=4，即：

2.2 渲染

渲染部分本质上是一个3D到2D的建模过程，渲染部分利用重建部分得到的3D点的颜色及不透明度沿着光线进行整合得到最终的2D图像像素值。（Volume Rendering with Radiance Fields部分，即下图的红框部分）

2.2.1 Volume Rendering with Radiance Fields

在有了3D空间的模型以后（即神经辐射场 $F_{\theta}$ ），需要以神经辐射场为中间载体合成图像，这个过程就是渲染。Nerf使用Volume Rendering的方法来做渲染。具体过程为，假设当前相机光心的位置为 $o\in R^3$ ,将图像上任意像素与光心连线，可得到视角方向 $\in R^3$ ,根据光心及视角方向可得到一条光线 $r (t) = o + t d$ ,根据体渲染公式，得到该像素上观测到的颜色为：

其中函数T(t)表示射线从tn到t沿射线累积透射率，即射线从tn到t不碰到任何粒子的概率。从2.1.1中建模的Neural Radiance Field中绘制视图，需要估计通过所需虚拟相机的每个像素跟踪的相机光线的积分C®，然而2.1.1中建模后选取了Volumn作为3D中间表示，势必会使用到离散求积法对这个连续积分进行数值估计，这会极大地限制表示的分辨率，因此可通过分层抽样方法（详细信息看2.2.2Hierarchical volume sampling部分）的方法，使得即使使用离散的样本估计积分，但是能够较好地表示

最低0.47元/天解锁文章