论文笔记:RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs

该文提出了一种改进的神经辐射场(NeRF)方法,针对稀疏视角下的场景合成问题。通过规范未观察到的视点的几何形状和颜色,结合沿射线的退火采样策略,防止训练早期的发散。使用normalizingflow模型来规范化颜色预测,同时引入几何约束以促进深度平滑,提高渲染质量。实验表明,几何约束对性能提升尤其显著,组合所有技术能实现最佳效果。
摘要由CSDN通过智能技术生成

中文标题:通过规范神经辐射场达到稀疏视角合成

提出问题

  • 虽然NeRF可以在许多输入视图可用时产生看不见的视点的逼真渲染,如果输入视图的数量稀疏,NeRF的性能会显著下降。
  • 我们观察到,稀疏输入场景中的大多数伪影是由估计的场景几何错误,以及在训练开始时的不同行为引起的。

创新点

  • 规范从未观察到的角度呈现的补丁的几何形状和外观。
  • 一种沿射线采样点的退火策略,我们首先在一个小范围内采样场景内容,然后扩展到完整的场景边界,这防止了训练早期的发散
  • 使用一个 normalizing flow模型来规范未观察到的视点的颜色。

算法简介

在这里插入图片描述

基础方法(BaseLine)

  • NeRF每像素只投射一条射线,而mip-NeRF [2]则只投射一个圆锥体。位置编码从表示一个无穷小的点变为在被圆锥锥覆盖的卷上的积分。这对于具有不同摄像机距离的场景是一个更合适的表示,并允许NeRF的粗糙和精细的MLP被合并成一个单一的多尺度MLP,从而提高训练速度和减少模型大小。我们在本工作中采用了mip-NeRF表示。

基于块的正则

提出问题
  • 模型仅通过重建损失从这些稀疏视点进行监督。虽然学会了完美地重构输入视图,但新的视图可能会退化,因为模型不倾向于在这种稀疏的输入场景中学习几何一致的解决方案
  • 然而,即使有正确的几何形状,由于输入的稀疏性,优化NeRF模型仍然会导致场景外观预测中的颜色变化或其他错误
解决方法
  • 选择看不见的点
    在这里插入图片描述

  • 已知视点的集合。

  • 我们将可能的摄像机位置的空间定义为所有给定的目标摄像机位置的边界框
    在这里插入图片描述

  • 其中 t m i n t_min tmin t m a x t_max tmax分别为 { t t a r g e t i } i \{t^i_{target}\}_i {ttargeti}i的基本最小值和最大值。

  • 为了获得摄像机旋转的样本空间,我们假设所有的摄像机都大致聚焦在一个中心场景点上。我们通过计算所有目标姿态的上轴上的归一化平均值来定义一个共同的“up”轴 p u − p^{-}_u pu。接下来,我们通过求解一个最小二乘问题来计算一个平均焦点 p f − p^{-}_f pf,以确定距离所有目标姿态的光轴的平方距离最小的三维点。为了学习更鲁棒的表示,我们在计算相机旋转矩阵之前,在焦点中添加随机抖动。我们定义所有可能的相机旋转的集合(给定采样位置t)为
    在这里插入图片描述

  • 我们通过采样一个位置和旋转来获得一个随机的相机姿势:
    在这里插入图片描述

  • 为了解决这个问题我们监督那些看不到的点

  • 更具体地说,我们定义了一个看不见相关的视点空间,并渲染从这些相机中随机采样的小斑块。我们的关键思想是,这些补丁可以被正则化,以产生平滑的几何形状和高可能性的颜色。

  • 几何约束 :现实世界的几何学倾向于整体光滑的,平面比高频结构更有可能出现。我们通过从未观察到的观点鼓励深度平滑,将这个先验合并到我们的模型中。

  • 深度计算方法:
    在这里插入图片描述

  • Smooth 规范损失
    在这里插入图片描述

  • 颜色约束:估计渲染块的可能性,并在优化过程中最大化它。我们对自然图像数据集的唯一标准是,它包含不同的自然图像,允许我们对重建的任何类型的真实世界场景重用相同的流模型。

  • 利用这个训练好的流模型,我们估计了渲染块的对数似然(LL),并在优化过程中最大化它们。让
    在这里插入图片描述

  • R r R_r Rr是从 S p S_p Sp的射线采样。 ( ^ P ) r \hat(P)_r (^P)r是预测的RGB块,中心是r, − l o g p z -log pz logpz是高斯分布 p z p_z pz的负log似然。

采样空间退火

提出问题
  • 对于非常稀疏的场景(例如,3或6个输入视图),我们观察到NeRF的另一种失败模式:在训练开始时的发散行为,这导致了在射线起源处的高密度值。
解决方法
  • 通过将场景采样空间限制在为所有输入图像定义的更小区域内,我们引入了一种归纳偏差来解释在场景中心具有几何结构的输入图像。
    在这里插入图片描述
  • t m t_m tm是一个定义的中心点(通常是 t n t_n tn t f t_f tf之间的中点。
  • 这种退火被应用于从输入姿态和采样的未观测视点的渲染。我们发现,这种退火策略保证了在早期训练时的稳定性,并避免了退化解。

实验分析

在这里插入图片描述
在这里插入图片描述

  • 几何约束对性能的影响比对外观约束的影响更大。组合所有组件可获得最佳性能。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BlueagleAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值