[读论文] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (ECCV2020 Best Paper)

YuQiao0303

已于 2022-05-06 14:17:55 修改

阅读量1.3k

点赞数 1

分类专栏：读论文 point cloud AI 文章标签：计算机视觉人工智能

于 2022-05-06 13:21:07 首次发布

本文链接：https://blog.csdn.net/qq_34342853/article/details/124603563

版权

32 篇文章 1 订阅

订阅专栏

21 篇文章 2 订阅

订阅专栏

14 篇文章 2 订阅

订阅专栏

总览

基本思路：从某个视角看这个场景，会看到其颜色。于是将场景表示为视角-颜色的对应关系。
$F_{\Theta}:(\mathbf{x}, \mathbf{d}) \rightarrow(\mathbf{c}, \sigma)$
输入：5D视角。
- $\boldsymbol{x} = (x,y,z)$ . 目标空间点的3D坐标位置。
- $\boldsymbol{d}=(\theta, \phi)$ . 视角方向，从什么方向去看这个空间点。
输出：密度和颜色
- $\boldsymbol{c} = (r,g,b)$ 颜色认为与方向和xyz都有关。从不同视角看同一个点，颜色是不一样的。
- $\sigma$ : density，对应3D体素的密度，也有人叫不透明度。可以理解为一条射线r经过这个位置xyz处的一个无穷小的粒子时，被终止的概率（所以可以叫密度也可以叫不透明度）。这个density是物体本身的属性，和视角方向 $\boldsymbol{d}$ 无关，只和xyz有关。
网络结构：MLP

关于density的解释：
我们常见的3D重建中，一个点是否是物体表面通常是有确定的表示，比如隐式场的0等值面，体素表示中值为1的部分。但这里的denstiy就是一个虚一点的概念，是有一个可以积分的概率表示的。

关于θ和φ的定义，找到这个图：
https://blog.csdn.net/Master_Cui/article/details/119787704
在这里插入图片描述

思路：2D图片的一个像素，对应了一条从相机发出的射线上所有连续空间点。颜色是被挡住的位置的颜色（在哪里被挡住是由density决定的）。

颜色可以表示为density 乘color的积分。

为了可微，需要将积分过程离散化。近似为，将需要积分的区域分成N分，然后每一个小区域内均匀随机采样。然后积分简化为求和。

不直接使用位置xyz作为输入，而是用position encoding。

作者发现直接用position的话，得到结果比较模糊。
有先前的研究表明神经网络对低频信息比较敏感，容易忽视高频纹理信息
所以作者这样操作来引入高频信息：
- 将刚才的映射函数F，理解为符合函数F’ * γ。网络要学习的是F’, 而γ是一个将实数映射到高位空间的编码函数。也就是说，先对xyz通过γ映射到高维空间，然后网络直接拿γ(x)作为输入
- 实际的网络结构如下：
  - https://blog.csdn.net/Vpn_zc/article/details/115729297