【Paper Notes】TensoRF: Tensorial Radiance Fields-CSDN博客

本文链接：https://blog.csdn.net/S_Kross/article/details/128248297

论文链接
TensoRF: Tensorial Radiance Fields 是上海科技大学和Adobe合作发表的一篇文章。最终发表于ECCV 2022上。

论文目标

三维场景的表示方法有很多，比如Mesh，Voxel Grid，或者基于神经网络的表示方法 NeRF¹ 。本文提出了一种很新颖的表示三维场景的方法，主要是利用4D tensor的分解基础，将三维场景分解为多个向量的外积和，或者多个向量和矩阵的外积和。这种方式的好处是比基于NeRF ¹ 的方法使用的显存更小，并且表示场景的方式更加紧凑。

数学原理

在深入论文前，首先我们学习一下基本的数学原理。

SVD分解回顾

我们首先可以回顾一下SVD分解的形式。
给定一个矩阵 $A_{m\times n}$ , 我们可以将该矩阵分解为
$A_{m\times n} = U_{m\times m} \Sigma_{m\times n} V_{n \times n}^H$
我们知道
$\Sigma_{m\times n} = \begin{bmatrix} \Sigma_1 & \bold{0} \\ \bold{0} & \bold{0} \end{bmatrix}$
其中 $\Sigma_1 = {\rm diag} ( \sigma_1, \sigma_2, \cdots , \sigma_r )$ 。同时，我们也知道 $U_{m\times m} =[\bold{u}_1 \cdots \bold{u}_r, \bold{0} \cdots \bold{0}]$ , $V_{n\times n}=[\bold{v}_1 \cdots \bold{v}_r, \bold{0} \cdots \bold{0}]$ 。
那么将SVD分解写成向量表达的形式就是
$\sum_{i=1}^r \sigma_i \bold{u}_i \bold{v}_i^H = \sum_{i=1}^r \sigma_i (\bold{u}_i \times \bold{\hat v}_i)$
其中， $\times$ 表示外积，^ 表示逐元素共轭。通过SVD分解，我们可以将一个二维矩阵表达成多个一维向量外积加和的方式。

CP 分解

如果我们面邻的矩阵不再是2D的，而是3D的矩阵，那么如何做分解呢？其实可以套用SVD的形式，先把3D的矩阵，某两个维度压扁成2D的矩阵，然后逐步进行SVD分解。CP分解的目标是将高维矩阵分解成多个向量内积加权的方式。下面以3D 张量为例子分析。
假定 $\mathcal{T}\in \mathbb{R}^{I \times{J}\times {K}}$ , 那么 $\mathcal{T}$ 可以分解为

$\mathcal{T}=\sum\limits_{r=1}^R\bold{v}_r^1\times \bold{v}_r^2 \times\bold{v}_r^3$
其中 $\bold{v}^1 \in \mathbb{R}^I,\bold{v}^2 \in \mathbb{R}^J,\bold{v}^3 \in \mathbb{R}^K$ 分别对应矩阵的第一个维度，第二个维度和第三个维度。
那么如果我们想得到原始矩阵某个 $i, j, k$ 位置的值该如何计算呢？
$\mathcal{T}_{i,j,k} = \sum\limits_{r=1}^R \bold{v}_{r,i}^1\bold{v}_{r,j}^2\bold{v}_{r,k}^3$

VM 分解（论文提出的方法，Vector-Matrix Decomposition)

虽然CP的表示方法非常紧凑，但是依赖几个秩为1的张量加和表示三维场景，可能需要分解出非常多的加和项。因此论文中又提出了一种松弛的方法，期望减少 $R$ 项的个数。具体的做法是这样的
$\mathcal{T} = \sum\limits_{r=1}^R \bold{v}_r^1 \times \bold{M}_r^{2,3} + \sum\limits_{r=1}^R \bold{v}_r^2 \times \bold{M}_r^{1,3} + \sum\limits_{r=1}^R \bold{v}_r^3 \times \bold{M}_r^{1,2}$
这样，我们就将外积分解成了一个向量对一个二维矩阵的内积，直观的说可以理解成，一个轴(x/y/z)对一个平面(y-z/x-z/x-y)平面的外积。其中 $\bold{M}_{r}^{1,2}\in\mathbb{R}^{I\times J},\bold{M}_{r}^{1,3}\in\mathbb{R}^{I\times K},\bold{M}_{r}^{2,3}\in\mathbb{R}^{J\times K}$ 。
如图所示：
直观分解解释

论文方法

了解了以上数学原理，我们知道，我们可以通过多个向量，来重建出3D的张量。但是针对三维场景，其是一个3D的张量 $x, y, z$ 表示占据密度，一个4D的张量 $x, y, z, c$ 表示颜色信息。针对这种形式如何建模呢？
首先对于密度 $\sigma$ ，我们可以直接用以上的CP或者VM进行建模，但是对于颜色信息来说，是一个4D的张量。我们可以仿照CP分解，构造出4D张量的分解方式：
$\mathcal{T}=\sum\limits_{r=1}^R\bold{v}_r^1\times \bold{v}_r^2 \times\bold{v}_r^3 \times \bold{v}_r^4, \\ \mathcal{T} \in \mathbb{R}^{I\times J \times K \times P}$
其中P是计算颜色所需要的通道个数，用于恢复颜色。
如果用VM分解来构造该4D张量，同样需要添加一个秩为1的向量 $\bold{b}$ , 具体可以写为
$\mathcal{T} = \sum\limits_{r=1}^R \bold{v}_r^1 \times \bold{M}_r^{2,3}\times \bold{b}_{3r-2} + \sum\limits_{r=1}^R \bold{v}_r^2 \times \bold{M}_r^{1,3}\times \bold{b}_{3r-1}+ \sum\limits_{r=1}^R \bold{v}_r^3 \times \bold{M}_r^{1,2}\times \bold{b}_{3r}$
其中 1，2，3上标分别对应于 $x, y, z$ 维度。

形象的描述如下所示：
重建方法

渲染细节

另外一个需要关注的问题是，这种方式表示的是一个网格，那么如果采样点是浮点的话，如何表示呢？文章给出了一种解决思路就是通过插值来表示，比如采样 $x_1,y_1,z_1$ , 那么我们可以通过一次或者二次插值得到 $\bold{v}^1(x_1), \bold{M}^{1,3}(x_1,z_1)$ 。
还有一个问题是，最终得到的4D张量，最后一个维度是 $P$ , 并不是3通道的颜色。需要通过MLP变换，或者SH函数映射到图像上。

实验结果

文章给出了一些实验结果，在渲染效果其实并没有特别惊艳，更多的是关注减少了NeRF的训练时间，并且减少了渲染场景所用的显存。
在这里插入图片描述

参考文献

[1] Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.