中文标题:通过规范神经辐射场达到稀疏视角合成
提出问题
- 虽然NeRF可以在许多输入视图可用时产生看不见的视点的逼真渲染,如果输入视图的数量稀疏,NeRF的性能会显著下降。
- 我们观察到,稀疏输入场景中的大多数伪影是由估计的场景几何错误,以及在训练开始时的不同行为引起的。
创新点
- 规范从未观察到的角度呈现的补丁的几何形状和外观。
- 一种沿射线采样点的退火策略,我们首先在一个小范围内采样场景内容,然后扩展到完整的场景边界,这防止了训练早期的发散。
- 使用一个 normalizing flow模型来规范未观察到的视点的颜色。
算法简介
基础方法(BaseLine)
- NeRF每像素只投射一条射线,而mip-NeRF [2]则只投射一个圆锥体。位置编码从表示一个无穷小的点变为在被圆锥锥覆盖的卷上的积分。这对于具有不同摄像机距离的场景是一个更合适的表示,并允许NeRF的粗糙和精细的MLP被合并成一个单一的多尺度MLP,从而提高训练速度和减少模型大小。我们在本工作中采用了mip-NeRF表示。
基于块的正则
提出问题
- 模型仅通过重建损失从这些稀疏视点进行监督。虽然学会了完美地重构输入视图,但新的视图可能会退化,因为模型不倾向于在这种稀疏的输入场景中学习几何一致的解决方案。
- 然而,即使有正确的几何形状,由于输入的稀疏性,优化NeRF模型仍然会导致场景外观预测中的颜色变化或其他错误。
解决方法
-
选择看不见的点
-
已知视点的集合。
-
我们将可能的摄像机位置的空间定义为所有给定的目标摄像机位置的边界框
-
其中 t m i n t_min tmin和 t m a x t_max tmax分别为 { t t a r g e t i } i \{t^i_{target}\}_i {ttargeti}i的基本最小值和最大值。
-
为了获得摄像机旋转的样本空间,我们假设所有的摄像机都大致聚焦在一个中心场景点上。我们通过计算所有目标姿态的上轴上的归一化平均值来定义一个共同的“up”轴 p u − p^{-}_u pu−。接下来,我们通过求解一个最小二乘问题来计算一个平均焦点 p f − p^{-}_f pf−,以确定距离所有目标姿态的光轴的平方距离最小的三维点。为了学习更鲁棒的表示,我们在计算相机旋转矩阵之前,在焦点中添加随机抖动。我们定义所有可能的相机旋转的集合(给定采样位置t)为
-
我们通过采样一个位置和旋转来获得一个随机的相机姿势:
-
为了解决这个问题我们监督那些看不到的点
-
更具体地说,我们定义了一个看不见但相关的视点空间,并渲染从这些相机中随机采样的小斑块。我们的关键思想是,这些补丁可以被正则化,以产生平滑的几何形状和高可能性的颜色。
-
几何约束 :现实世界的几何学倾向于整体光滑的,平面比高频结构更有可能出现。我们通过从未观察到的观点鼓励深度平滑,将这个先验合并到我们的模型中。
-
深度计算方法:
-
Smooth 规范损失
-
颜色约束:估计渲染块的可能性,并在优化过程中最大化它。我们对自然图像数据集的唯一标准是,它包含不同的自然图像,允许我们对重建的任何类型的真实世界场景重用相同的流模型。
-
利用这个训练好的流模型,我们估计了渲染块的对数似然(LL),并在优化过程中最大化它们。让
-
R r R_r Rr是从 S p S_p Sp的射线采样。 ( ^ P ) r \hat(P)_r (^P)r是预测的RGB块,中心是r, − l o g p z -log pz −logpz是高斯分布 p z p_z pz的负log似然。
采样空间退火
提出问题
- 对于非常稀疏的场景(例如,3或6个输入视图),我们观察到NeRF的另一种失败模式:在训练开始时的发散行为,这导致了在射线起源处的高密度值。
解决方法
- 通过将场景采样空间限制在为所有输入图像定义的更小区域内,我们引入了一种归纳偏差来解释在场景中心具有几何结构的输入图像。
- 设 t m t_m tm是一个定义的中心点(通常是 t n t_n tn和 t f t_f tf之间的中点。
- 这种退火被应用于从输入姿态和采样的未观测视点的渲染。我们发现,这种退火策略保证了在早期训练时的稳定性,并避免了退化解。
实验分析
- 几何约束对性能的影响比对外观约束的影响更大。组合所有组件可获得最佳性能。