【2023.07.06】Nerf: Representing Scenes as Neural Radiance Fields for View Synthesis论文方法阅读

本文链接：https://blog.csdn.net/FridaNN/article/details/131573776

1.研究动机

传统用于三维重建的神经网络存在收敛精度不高、每束相机光线需要多个样本训练的问题。

为了解决这个问题，nerf将用位置编码的5d坐标用多层神经网络表示，这种结构能够表示更高频的函数。并且使用分层采样减少采样得到这个高频空间的查询次数。

2.nerf的渲染和优化步骤

1）隐式神经场：用基于坐标的全连接网络表达颜色场与体密度场

（1）为什么使用隐式神经表示

隐式神经表示(Implicit Neural Representation，INR）(也称为基于坐标的表示)将信号参数化一个连续函数，虽然该函数并不是解析的，但是使得信号所占的内存只与信号自身的复杂性相关，将信号与图像分辨率解耦合，因此可以实现超分辨率。

（2）使用隐式神经场的步骤

(a) 已知一条光线， $\bar{r}(t)=\bar{o}+t\bar{d}$ ,光线方向 $\bar{d}=(\theta,\phi)$ ;沿光线采样 $\bar{r_i}=\bar{r}(t_i)=(x_i,y_i,z_i)$ .

(b) 用神经场输入经过位置编码后的坐标和光线方向，查询每个采样点的颜色与体密度 $c_i,\sigma_i$

--位置编码(positional encoding)：

为什么使用位置编码：因为神经网络更偏好学习低频函数，所以在信号输入神经网络前使用高频函数把信号映射到高维空间，有助于神经网络拟合信号中的高频变化。

如何使用位置编码：在得到采样点后，使用编码函数 $\gamma (p)=(sin(2^0\pi p),cos(2^0\pi p),...,sin(2^{L-1}\pi p),cos(2^{L-1}\pi p))$ ，将x和d从 $\mathbb{R}$ 映射到 $\mathbb{R}^{2L}$ 。（两个映射的L并不一定取相同值）

2）体渲染公式：将颜色场与体密度场渲染为图像

使用体渲染公式 $C=\sum_{i=1}^{N}\prod_{j=1}^{i-1}(1-\alpha_j)\alpha_ic_i$ 得到沿光线可观察到的最终颜色.其中 $\alpha_j=(1-e^{-\sigma_j(t_{i+1}-t_i)})$ 为不透明度。

1）使用分层采样计算体渲染的连续积分而非deterministic quadrature

其中 $t_i$ 是在对区间 $[t_n,t_f]$ 平均划分为N份后，随机从每个区间中抽取的样本。这是为了避免MLP每次只在固定的离散点集合处被查询，这会限制辐射场表示的精度。

2) 分层体积采样(hierarchical volume sampling)

并不是对神经辐射场沿着每条相机光线密集采样N个点都使用体渲染公式，使用分层体积采样仅对部分点使用体渲染公式。

如果密集采样N个点，因为遮挡和空余空间的存在，这些位置对渲染结果没有影响，但是被反复采样，效率低。因此使用分层体积采样，按照最终渲染结果的效果分配采样点。

分层体积采样(hierarchical volume sampling)分为三个步骤。

第一步，首先使用分层采样(stratified sampling)采样Nc 个位置，并计算体渲染公式在Nc个位置的值。

第二步，重写粗糙网络中Nc个点的颜色 $\hat{C_c}(\bold r)=\sum_{i=1}^{N_c}\omega_i c_i$ , $\omega_i=T_i(1-exp(-\sigma_i\delta_i))$ ，并用归一化后的权重 $\widehat{\omega_i}=\frac{\omega_i}{\sum_{j=1}^{N_c}\omega_j}$ 构造相机光线上点的PDF。