Paper Reading—Nerf:Representing Scenes as Neural Radiance Fields for View Synthesis

自动驾驶之星

已于 2024-05-09 22:55:04 修改

阅读量639

点赞数 9

分类专栏： Paper Reading 文章标签：自动驾驶 cnn

于 2024-05-09 22:51:25 首次发布

本文链接：https://blog.csdn.net/tjy792864625/article/details/138619271

版权

Paper Reading 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

原文：https://arxiv.org/abs/2003.08934

1. Nerf的玩法

用已知视角的图像进行训练，inference未知视角的图像
Nerf的数学表达

2. Nerf 的结构设计

Nerf结构设计

2.1 Nerf的物理模型

如图（a）中，假设相机在某个角度拍摄中间的物体，它的物理模型就是相机成像模型，即光线照射在三维空间中物体上的某一点，反射光线穿过相机光心，停止在成像平面上的某个像素点。Nerf把这个过程反过来看：从相机光心发射出射线，穿过图像上的每个像素点，落在空间上的三维物体上。假设图像分辨率是256*256的，那么每个图像上的射线的数量就是65536。在建模的时候，会围绕待建模对象在很多不同的位姿下进行拍摄，作为训练数据：
分布在空间中的相机

2.2 Nerf的pipeline

图（a）中，在每条射线上做离散的采样，每个采样点上的信息包含坐标值x，y，z以及它们的观测角度。网络的输入就是这些射线上全部离散点的x，y，z，θ，φ值。
图（b）是网络的输出，它包含每条射线上采样点的r，g，b信息（论文中用），和σ（论文中称之为density，不透明度，可以理解为该射线在当前采样点处终止的概率值）
图（c）是网络后面接的volumn blender渲染层，渲染的结果就是当前角度的图像，它是可微的。因此（d）中将渲染结果与当前角度图像GT计算Loss，而由于整个pipeline都是可微的，所以可以用SGD进行优化。

3 Nerf的网络

网络结构总览

3.1 Density的预测

从上图的网络结构中可以看出，Density的预测仅依赖于射线上采样点的坐标值，而不依赖于当前观测的角度。因为Density表示不透明度，也就是表示这个位置上是否包含实际的物体，不管相机摆在什么位姿上，这个位置上有物体就是有，没有就是没有。
另外，在x，y，z每个坐标上，都增加了一个20维的位置编码，式中L=10：
在这里插入图片描述
增加位置编码相当于是一种特征增强，把原本的一个坐标数值升维到21维，作者的解释如下：