论文阅读《Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields》

CV科研随想录

已于 2023-03-14 16:45:09 修改

阅读量435

点赞数 1

文章标签：论文阅读人工智能机器学习

于 2023-03-14 15:05:25 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/129488359

版权

Mip-NeRF是一种针对神经辐射场渲染的抗锯齿方法，通过将像素视为圆并构建视锥体进行积分，解决了因图像尺度变化引起的模糊和锯齿问题。模型利用高斯分布近似圆锥体，实现IPE（IntegratedPositionalEncoding），有效结合了高频和低频信息，提高了渲染质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2103.13415
源码地址：https://github.com/google/mipnerf

背景知识：图像下采样过程会产生锯齿现象，从信号处理的角度分析：用低频率（低分辨率）的信号来表示（采样）高频率（高分辨率）的信号时，会产生信号的混叠现象。图形学上常用的抗锯齿方法有以下两种：

提高采样率，如SSAA/MSAA方法:
SSAA (超采样抗锯齿) 和 MSAA (多重采样抗锯齿) 都是图形学中的抗锯齿方法，用于减少边缘的锯齿状现象。SSAA 是在一个像素内采样多个点，然后对每个点进行着色，最后对所有点的颜色进行平均，得到最终的像素颜色。MSAA 是在一个像素内采样多个点，但只对每个像素进行一次着色，然后根据每个点是否被三角形覆盖来决定是否使用该像素的颜色。SSAA 的优点是效果好，缺点是计算量大，占用内存多。MSAA 的优点是计算量小，占用内存少，缺点是效果不如 SSAA 好。
去除高频分量，使用低通滤波器对边缘进行模糊化。

概述

基于神经辐射场的渲染过程中，每个像素仅对应一条渲染射线导致当训练与测试图像尺度不同会引起渲染场景出现模糊与锯齿现象。增加采样光线（增加采样频率）可以缓解锯齿与模糊现象但同时伴随计算量的剧增，为此Mip-NeRF的将沿射线的渲染过程改进为渲染圆锥体的过程。

模型架构

在这里插入图片描述
如图1所示，Mip-NeRF将一个像素点视为一个圆，沿着光心与像素点所在的圆在3维空间中构建一个视锥体，将原始NeRF沿着一条视线进行积分改进为在圆台内的积分过程。视锥体表示为：
$\begin{array}{c} \mathrm{F}\left(\mathbf{x}, \mathbf{o}, \mathbf{d}, \dot{r}, t_{0}, t_{1}\right)=\mathbb{1}\left\{\left(t_{0}<\frac{\mathbf{d}^{\mathrm{T}}(\mathbf{x}-\mathbf{o})}{\|\mathbf{d}\|_{2}^{2}}<t_{1}\right)\right. \left.\wedge\left(\frac{\mathbf{d}^{\mathrm{T}}(\mathbf{x}-\mathbf{o})}{\|\mathbf{d}\|_{2}\|\mathbf{x}-\mathbf{o}\|_{2}}>\frac{1}{\sqrt{1+\left(\dot{r} /\|\mathbf{d}\|_{2}\right)^{2}}}\right)\right\} \end{array}\tag{1}$
其中 $\mathbf{x}$ 为空间点的位置, $\mathbf{o}$ 为光心, $\mathbf{d}$ 为视线方向, $\dot{r}$ 为像素点在像素平面内所代表的圆的半径, $t_{0}$ 表示最近采样点, $t_{1}$ 表示最远采样点。上式表示空间点 $\mathbf{x}$ 在圆台内时， $\mathrm{F}$ 为 1，否则为0；其中 $t_{0}<\frac{\mathbf{d}^{\mathrm{T}}(\mathbf{x}-\mathbf{o})}{\|\mathbf{d}\|_{2}^{2}}<t_{1}$ 为深度方向的约束， $\frac{\mathbf{d}^{\mathrm{T}}(\mathbf{x}-\mathbf{o})}{\|\mathbf{d}\|_{2}^{2}}$ 为 $\mathbf{ox}$ 在方向 $\mathbf{d}$ 上的投影模长。其中 $\frac{\mathbf{d}^{\mathrm{T}}(\mathbf{x}-\mathbf{o})}{\|\mathbf{d}\|_{2}\|\mathbf{x}-\mathbf{o}\|_{2}}$ 为 $\mathbf{ox}$ 与 $\mathbf{d}$ 夹角的余弦值， $\frac{1}{\sqrt{1+\left(\dot{r} /\|\mathbf{d}\|_{2}\right)^{2}}}$ 为视锥体夹角的余弦值，表示点在视锥体内侧。
相对应的圆锥体的期望位置编码表示为：
$\gamma^{*}\left(\mathbf{o}, \mathbf{d}, \dot{r}, t_{0}, t_{1}\right)=\frac{\int \gamma(\mathbf{x}) \mathrm{F}\left(\mathbf{x}, \mathbf{o}, \mathbf{d}, \dot{r}, t_{0}, t_{1}\right) d \mathbf{x}}{\int \mathrm{F}\left(\mathbf{x}, \mathbf{o}, \mathbf{d}, \dot{r}, t_{0}, t_{1}\right) d \mathbf{x}}\tag{2}$
但对于圆台内的点 $\mathbf{x}$ 的概率密度函数 $\gamma$ 不可知，Mip-NeRF使用视锥体的中点与半长度构建高斯分布来近似圆锥体，使用高斯分布来近似计算圆台的位置编码的期望值，称之为 IPE(Integrated Positional Encoding)，则：
$\begin{array}{c} \mu_{t}=t_{\mu}+\frac{2 t_{\mu} t_{\delta}^{2}}{3 t_{\mu}^{2}+t_{\delta}^{2}}, \quad \sigma_{t}^{2}=\frac{t_{\delta}^{2}}{3}-\frac{4 t_{\delta}^{4}\left(12 t_{\mu}^{2}-t_{\delta}^{2}\right)}{15\left(3 t_{\mu}^{2}+t_{\delta}^{2}\right)^{2}} , \quad \sigma_{r}^{2}=\dot{r}^{2}\left(\frac{t_{\mu}^{2}}{4}+\frac{5 t_{\delta}^{2}}{12}-\frac{4 t_{\delta}^{4}}{15\left(3 t_{\mu}^{2}+t_{\delta}^{2}\right)}\right) . \end{array}\tag{3}$
其中 $\mu_{t}$ 为沿着射线的平均距离， $\sigma_{t}^{2}$ 为沿着射线的方差， $\sigma_{r}^{2}$ 为垂直与射线方向的方差。将其从圆锥台坐标系转换到世界坐标系中，该多变量高斯分布表达为：
$\boldsymbol{\mu}=\mathbf{o}+\mu_{t} \mathbf{d}, \quad \boldsymbol{\Sigma}=\sigma_{t}^{2}\left(\mathbf{d d}^{\mathrm{T}}\right)+\sigma_{r}^{2}\left(\mathbf{I}-\frac{\mathbf{d d}^{\mathrm{T}}}{\|\mathbf{d}\|_{2}^{2}}\right)\tag{4}$

将位置编码写成矩阵形式如下：
$\mathbf{P}=\left[\begin{array}{llllllllll} 1 & 0 & 0 & 2 & 0 & 0 & & 2^{L-1} & 0 & 0 \\ 0 & 1 & 0 & 0 & 2 & 0 & \cdots & 0 & 2^{L-1} & 0 \\ 0 & 0 & 1 & 0 & 0 & 2 & & 0 & 0 & 2^{L-1} \end{array}\right]^{\mathrm{T}}, \gamma(\mathbf{x})=\left[\begin{array}{l} \sin (\mathbf{P x}) \\ \cos (\mathbf{P x}) \end{array}\right] .\tag{5}$
由于高斯函数的优良性质， $\mathbf{x}$ 的位置编码也服从高斯分布，且其期望与方差为： $\mu_{\gamma}=\mathbf{P} \mu, \Sigma_{\gamma}=\mathbf{P} \Sigma \mathbf{P}^{T}$ ， $\sin(\mathbf{x})、\cos(\mathbf{x})$ 均服从高斯分布：
$\begin{aligned} \mathrm{E}_{x \sim \mathcal{N}\left(\mu, \sigma^{2}\right)}[\sin (x)] & =\sin (\mu) \exp \left(-(1 / 2) \sigma^{2}\right) \\ \mathrm{E}_{x \sim \mathcal{N}\left(\mu, \sigma^{2}\right)}[\cos (x)] & =\cos (\mu) \exp \left(-(1 / 2) \sigma^{2}\right) \end{aligned}\tag{6}$
则基于高斯分布的圆台服从的分布为：
$\begin{aligned} \gamma(\boldsymbol{\mu}, \boldsymbol{\Sigma}) & =\mathrm{E}_{\mathbf{x} \sim \mathcal{N}\left(\boldsymbol{\mu}_{\gamma}, \boldsymbol{\Sigma}_{\gamma}\right)}[\gamma(\mathbf{x})] \\ & =\left[\begin{array}{l} \sin \left(\boldsymbol{\mu}_{\gamma}\right) \circ \exp \left(-(1 / 2) \operatorname{diag}\left(\boldsymbol{\Sigma}_{\gamma}\right)\right) \\ \cos \left(\boldsymbol{\mu}_{\gamma}\right) \circ \exp \left(-(1 / 2) \operatorname{diag}\left(\boldsymbol{\Sigma}_{\gamma}\right)\right) \end{array}\right], \end{aligned}\tag{7}$
其中 $\circ$ 为按元素相乘，为了减少计算量，使用 $\boldsymbol{\Sigma}$ 的对角线元素来计算替代 $\boldsymbol{\Sigma}_\gamma$ 的对角线元素，即:
$\operatorname{diag}\left(\boldsymbol{\Sigma}_{\gamma}\right)=\left[\operatorname{diag}(\boldsymbol{\Sigma}), 4 \operatorname{diag}(\boldsymbol{\Sigma}), \ldots, 4^{L-1} \operatorname{diag}(\boldsymbol{\Sigma})\right]^{\mathrm{T}}\tag{8}$
其中 $\boldsymbol{\Sigma}$ 对角线上的元素只取决于3D空间点的协方差：
$\operatorname{diag}(\boldsymbol{\Sigma})=\sigma_{t}^{2}(\mathbf{d} \circ \mathbf{d})+\sigma_{r}^{2}\left(\mathbf{1}-\frac{\mathbf{d} \circ \mathbf{d}}{\|\mathbf{d}\|_{2}^{2}}\right)\tag{9}$
在这里插入图片描述
图4中，左图为原始的位置编码，右图为IPE，x轴上方为不同频率下的编码信息（越往上信息变化更快）表示高频信息，越靠近x轴（信号变化越慢）表示低频信息。