NeRF PyTorch 源码解读 - NDC空间

__星辰大海__

已于 2025-06-04 13:56:09 修改

阅读量1.1k

点赞数 26

分类专栏： NeRF 文章标签：人工智能

于 2025-06-04 12:03:10 首次发布

本文链接：https://blog.csdn.net/2501_90669630/article/details/148390969

版权

NeRF 专栏收录该内容

4 篇文章

订阅专栏

文章目录

1. 理论推导
2. 代码实现

NeRF 将视锥体空间的射线

\mathbf{r} = \mathbf{o} + t\mathbf{d}

转换到归一化设备坐标系(Normalized Device Coordinates, NDC)空间上。现在从理论推导和代码实现两个角度进行分析。

1. 理论推导

投影变换将视锥体映射到 $1, 1]^3$ 的立方体中。参考博客：计算机图形学 - 投影变换推导可得，投影变换矩阵 $\mathbf{M}_{persp} = \begin{pmatrix} \dfrac{n}{r} & 0 & 0 & 0 \\ 0 & \dfrac{n}{t} & 0 & 0 \\ 0 & 0 & -\dfrac{f + n}{f - n} & -\dfrac{2fn}{f-n} \\ 0 & 0 & -1 & 0 \end{pmatrix}$ 。假设空间存在三维点 $\begin{pmatrix} x \\ y \\ z \\ 1 \end{pmatrix}$ ，经过投影变换后三维点的坐标为 $\begin{pmatrix} x' \\ y' \\ z' \\ 1 \end{pmatrix}$ ，则有：
$\begin{pmatrix} x' \\ y' \\ z' \\ 1 \end{pmatrix} = \begin{pmatrix} \dfrac{n}{r} & 0 & 0 & 0 \\ 0 & \dfrac{n}{t} & 0 & 0 \\ 0 & 0 & -\dfrac{f+n}{f-n} & -\dfrac{2fn}{f-n} \\ 0 & 0 & -1 & 0 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \\ 1 \end{pmatrix} =\begin{pmatrix} \dfrac{nx}{r} \\ \\ \dfrac{ny}{t} \\ \\ -\dfrac{f+n}{f-n}z - \dfrac{2fn}{f-n} \\ \\ -z \end{pmatrix} = \begin{pmatrix} -\dfrac{nx}{rz} \\ \\ -\dfrac{ny}{tz} \\ \\ \dfrac{f+n}{f-n} + \dfrac{2fn}{(f-n)z} \\ \\ 1 \end{pmatrix} \tag{1}$ 假设视锥体空间的射线 $\mathbf{r} = \mathbf{o} + t\mathbf{d}$ 映射到 NDC 空间后为 $\mathbf{r'} = \mathbf{o'} + t'\mathbf{d'}$ ，即存在函数使得 $\pi(\mathbf{o} + t\mathbf{d}) = \mathbf{o'} + t'\mathbf{d'}$ 。
令 $\begin{pmatrix} -\dfrac{nx}{rz} \\ \\ -\dfrac{ny}{tz} \\ \\ \dfrac{f+n}{f-n} + \dfrac{2fn}{(f-n)z} \end{pmatrix} = \begin{pmatrix} \dfrac{a_x x}{z} \\ \\ \dfrac{a_y y}{z} \\ \\ a_z + \dfrac{b_z}{z} \end{pmatrix} \tag{2}$ 即有 $\begin{cases} a_x = -\dfrac{n}{r} \\ \\ a_y = -\dfrac{n}{t} \\ \\ a_z = \dfrac{f + n}{f - n} \\ \\ b_z = \dfrac{2fn}{f - n} \end{cases}$ 将 $\begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} o_x + td_x \\ o_y + td_y \\ o_z + td_z \end{pmatrix}$ 和 $\begin{pmatrix} x' \\ y' \\ z' \end{pmatrix} = \begin{pmatrix} o_x' + t'd_x' \\ o_y' + t'd_y' \\ o_z' + t'd_z' \end{pmatrix}$ 带入方程 $(2)$ 可得，
$\begin{pmatrix} a_x \dfrac{o_x + t d_x}{o_z + t d_z} \\ \\ a_y \dfrac{o_y + t d_y}{o_z + t d_z} \\ \\ a_z + \dfrac{b_z}{o_z + t d_z} \end{pmatrix} =\begin{pmatrix} o'_x + t' d'_x \\ \\ o'_y + t' d'_y \\ \\ o'_z + t' d'_z \end{pmatrix}$ 由于投影变换不改变射线的起点位置（相机光心位置），即 $\begin{pmatrix} o_x \\ o_y \\ o_z \end{pmatrix} = \begin{pmatrix} o_x' \\ o_y' \\ o_z' \end{pmatrix}$ 。
令 $t = 0$ 有
$\mathbf{o}' = \begin{pmatrix} o'_x \\ \\ o'_y \\ \\ o'_z \end{pmatrix} = \begin{pmatrix} a_x \dfrac{o_x}{o_z} \\ \\ a_y \dfrac{o_y}{o_z} \\ \\ a_z + \dfrac{b_z}{o_z} \end{pmatrix} = \begin{pmatrix} -\dfrac{n}{r} \cdot \dfrac{o_x}{o_z} \\ \\ -\dfrac{n}{t} \cdot \dfrac{o_y}{o_z} \\ \\ \dfrac{f + n}{f - n} + \dfrac{2fn}{f - n} \cdot\dfrac{1}{o_z} \end{pmatrix} = \pi(\mathbf{o}) \tag{3}$ 则有：
$\begin{align*} \begin{pmatrix} t'd_x' \\ \\ t'd_y' \\ \\ t'd_z' \end{pmatrix} = \begin{pmatrix} o_x' + t'd_x' \\ \\ o_y' + t'd_y' \\ \\ o_z' + t'd_z' \end{pmatrix} - \begin{pmatrix} o_x' \\ \\ o_y' \\ \\ o_z' \end{pmatrix} &= \begin{pmatrix} a_x \dfrac{o_x + t d_x}{o_z + t d_z} \\ \\ a_y \dfrac{o_y + t d_y}{o_z + t d_z} \\ \\ a_z + \dfrac{b_z}{o_z + t d_z} \end{pmatrix} - \begin{pmatrix} a_x \dfrac{o_x}{o_z} \\ \\ a_y \dfrac{o_y}{o_z} \\ \\ a_z + \dfrac{b_z}{o_z} \end{pmatrix} = \begin{pmatrix} a_x \dfrac{o_z (o_x + t d_x) - o_x (o_z + t d_z)}{(o_z + t d_z) o_z} \\ \\ a_y \dfrac{o_z (o_y + t d_y) - o_y (o_z + t d_z)}{(o_z + t d_z) o_z} \\ \\ b_z \dfrac{o_z - (o_z + t d_z)}{(o_z + t d_z) o_z} \end{pmatrix} \\ &= \begin{pmatrix} a_x \dfrac{t d_z}{o_z + t d_z} \left( \dfrac{d_x}{d_z} - \dfrac{o_x}{o_z} \right) \\ \\ a_y \dfrac{t d_z}{o_z + t d_z} \left( \dfrac{d_y}{d_z} - \dfrac{o_y}{o_z} \right) \\ \\ -b_z \dfrac{t d_z}{o_z + t d_z} \dfrac{1}{o_z} \end{pmatrix} = \dfrac{t d_z}{o_z + t d_z} \begin{pmatrix} a_x \left( \dfrac{d_x}{d_z} - \dfrac{o_x}{o_z} \right) \\ \\ a_y \left( \dfrac{d_y}{d_z} - \dfrac{o_y}{o_z} \right) \\ \\ -b_z \dfrac{1}{o_z} \end{pmatrix} \end{align*}$ 不妨令
$\begin{cases} t' = \dfrac{td_z}{o_z + td_z} = 1 - \dfrac{o_z}{o_z + td_z} \\ \\ \mathbf{d'} = \begin{pmatrix} d_x' \\ \\ d_y' \\ \\ d_z' \end{pmatrix} = \begin{pmatrix} a_x \left( \dfrac{d_x}{d_z} - \dfrac{o_x}{o_z} \right) \\ \\ a_y \left( \dfrac{d_y}{d_z} - \dfrac{o_y}{o_z} \right) \\ \\ -b_z \dfrac{1}{o_z} \end{pmatrix} \end{cases} \tag{4}$ 一方面，在 NeRF 中远平面选取为 $z = \infty$ ，所以有
$\left\{ \begin{aligned} a_z &= \lim_{f \to \infty} \dfrac{f+n}{f-n} = \lim_{f \to \infty} \dfrac{1+\dfrac{n}{f}}{1-\dfrac{n}{f}} = 1 \\ b_z &= \lim_{f \to \infty} \dfrac{2fn}{f-n} = \lim_{f \to \infty} \dfrac{2n}{1-\dfrac{n}{f}} = 2n \end{aligned} \right.$ 另一方面，在 NeRF 中有 $\dfrac{W}{2}$ 和 $\dfrac{H}{2}$ （ $H$ 和 $W$ 分别为图像的宽度和高度），并且 $n = f_{cam}$ （ $f_{cam}$ 为相机的焦距），所以有
$\left\{ \begin{aligned} a_x = -\dfrac{f_{cam}}{W/2} \\ a_y = -\dfrac{f_{cam}}{H/2} \end{aligned} \right.$ 综上可得，NDC 空间中射线的起点 $\mathbf{o'}$ 和方向 $\mathbf{d'}$ 分别为：
$\left\{ \begin{aligned} \mathbf{o}' &= \begin{pmatrix} -\dfrac{f_{cam}}{W/2} \dfrac{o_x}{o_z} \\ \\ -\dfrac{f_{cam}}{H/2} \dfrac{o_y}{o_z} \\ \\ 1 + \dfrac{2n}{o_z} \end{pmatrix} \\ \\ \mathbf{d}' &= \begin{pmatrix} -\dfrac{f_{cam}}{W/2} \left( \dfrac{d_x}{d_z} - \dfrac{o_x}{o_z} \right) \\ \\ -\dfrac{f_{cam}}{H/2} \left( \dfrac{d_y}{d_z} - \dfrac{o_y}{o_z} \right) \\ \\ -2n \dfrac{1}{o_z} \end{pmatrix} \end{aligned} \right.$

2. 代码实现

在转换到 NDC 空间前，首先将射线的起点 $\mathbf{o}$ 移动到近平面与射线的交点上，这使得后续进行采样时可以忽略相机光心到近平面这段距离。
令
$o_z + t_n d_z = -n$ 解得：
$t_n = -\dfrac{n + o_z}{d_z}$
具体代码实现如下：

def ndc_rays(H, W, focal, near, rays_o, rays_d):
    # Shift ray origins to near plane
    t = -(near + rays_o[..., 2]) / rays_d[..., 2]
    rays_o = rays_o + t[..., None] * rays_d

    # Projection
    o0 = -1. / (W / (2. * focal)) * rays_o[..., 0] / rays_o[..., 2]
    o1 = -1. / (H / (2. * focal)) * rays_o[..., 1] / rays_o[..., 2]
    o2 = 1. + 2. * near / rays_o[..., 2]

    d0 = -1. / (W / (2. * focal)) * (rays_d[..., 0] / rays_d[..., 2] - rays_o[..., 0] / rays_o[..., 2])
    d1 = -1. / (H / (2. * focal)) * (rays_d[..., 1] / rays_d[..., 2] - rays_o[..., 1] / rays_o[..., 2])
    d2 = -2. * near / rays_o[..., 2]

    rays_o = torch.stack([o0, o1, o2], -1)
    rays_d = torch.stack([d0, d1, d2], -1)

    return rays_o, rays_d

为什么要将原始的视锥空间转换到 NDC 空间？
现在从不同角度分析 NDC 空间的作用：
1）根据 NeRF 论文有：

Once we convert to the NDC ray, this allows us to simply sample t’ 0 linearly from 0 to 1 in order to get a linear sampling in disparity from n to ∞ in the original space.

在原始视锥空间中， $t$ 取值为 0 到 $\infty$ ，而在 NDC 空间中， $t^{'}$ 取值为 0 到 1。当 $t$ 为 0 时， $\dfrac{o_z}{o_z + td_z} = 0$ ，当 $t \to \infty$ 时， $t^{'} \to 1$ 。 $z = o_z + t d_z$ 为采样点在原始视锥空间的深度，所以 $\dfrac{o_z}{z}$ 。由于在转换到 NDC 空间之前，已经将射线的起点移动到射线与近平面的交点上（即 $o_z = -n$ ），则有 $\dfrac{n}{z}$ 。
考虑到视差 $d$ 和深度 $z$ 存在关系： $\dfrac{1}{|z|}=\dfrac{1}{-z}$ （因为 $z < 0$ ），所以 $t^{'} = 1 - n d$ ，即有 $\dfrac{1 - t'}{n}$ 。 $t^{'} = 0$ 对应于视差 $\dfrac{1}{n}$ ， $t^{'} = 1$ 对应于视差 $d = 0$ （无穷远处的采样点的视差为 0）。
对 NDC 空间的 $t^{'} \in [0, 1]$ 进行均匀取点，等价于在原始视锥空间中对视差 $\dfrac{1}{n}]$ 进行均匀分布采样。在原始空间中对视差进行均匀采样（即深度上非线性采样，近处密集，远处稀疏）是比较复杂的，需要根据深度进行非均匀计算。在 NDC 空间只需要做最简单的线性均匀采样，就可以获得原始空间中在视差上均匀分布的采样点。这也是将原始视锥空间转换为 NDC 空间的优势之一。
绘制视差 $d$ 与深度 $z$ 之间的曲线图：
在这里插入图片描述
从图中可以看出，近处的点的视差值较大，而远处的点的视差值较小，因此根据视差均匀分布采样得到的点大部分是近处的点。这种采样策略自适应地分配了采样点，在近处密集采样捕捉细节，在远处稀疏采样节省计算资源，显著提高了采样效率。近处正是物体细节丰富、图像变化剧烈的地方，需要更密集的采样才能准确捕捉几何边缘、纹理细节和光照变化（如阴影边界），而远处的物体通常较小、细节较少、变化平缓，不需要那么密集的采样。如下图所示：
在这里插入图片描述