[NeRF论文阅读笔记] mip-nerf

19. Mip-NeRF

Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

project page

知乎-mipNeRF

NeRF只在相机位置固定、分辨率与训练图像一致的新视角生成上表现较好。当拉近、拉远时(在多分辨率下观察场景),图像会产生锯齿以及模糊。

混叠是什么?

根据奈奎斯特采样定理,当采样频率小于信号频率的2倍时,会出现混叠。此时,高频信号会被重构为低频信号

NeRF的混叠,可以看成是,当在与训练图像不同的分辨率,尤其是更低分辨率下进行新视角图像生成时,相当于直接对场景表征做降采样,采样的频率低于场景中高频信息频率的两倍。

Mip-NeRF通过使用一个cone(圆锥)而不是ray采样,同时改进 positional encoding 为 integrated positional encoding (IPE)来克服混叠(aliasing)现象。当拉近、拉远相机时(在不同分辨率下观察图像),生成图像也有很好的效果。

Mip-NeRF introduces low-pass filtering over the Fourier features, where the filter size is controlled by the cone size

Motivation

NeRF直接在射线上采样多个点,再进行 positional encoding ,随后作为MLP的输入。每个频率的信息以相同方式被直接编码(encodes all frequencies equally),从而导致生成图像中的高频成分会出现锯齿

image-20221101210115234

用2D图像来类比:

如果直接降采样,效果很不好。相当于NeRF中直接采样点然后PE的过程

image-20221101205849510

经过高斯滤波平滑操作后再降采样,图像质量提高了(相当于是过滤了高频成分)。因此Mip-NeRF的想法可以看作是先对场景表征做高斯滤波再降采样。

image-20221101205912373

Method

image-20221101210335339

Mip-NeRF用圆锥(cone)取样射线来进行采样。可以看出,NeRF的采样方式仅仅能体现一个极小点的特征,即使是以不同方向来采样,对同一个点来说,其特征也不变,具有歧义性(ambiguity);而Mip-NeRF的做法考虑到了特征的形状和大小,是对锥台(conical frustram)内一块体积的特征进行建模 models the volume of each sampled conical frustum,从而去除了歧义性。

NeRF由于其采样和编码方式,只能学习到特定scale的特征,所以需要使用 coarse 和 fine 两个等级的MLP;而Mip-NeRF本身建模出的特征就包含尺度信息,所以仅用一个MLP,这使得模型大小减半。

image-20221101210511970

Mip-NeRF 使用 IPE/integrated positional encoding 来表征 conical frustum 中 volume 的特征

具体而言,是用锥台中所有点的 positional encoding 的期望来作为锥台 volume 内的特征表征。如果直接进行计算,就是如下形式:

image-20221101214820170 image-20221101214839821

式中,分子不好计算。因此论文采用多元高斯分布来近似。由于圆锥台关于射线对称的形状,仅需要三个参数就可以表征这个高斯分布。即在射线上的距离均值 μ t \mu_t μt,射线方向上的方差 σ t \sigma_t σt,垂直于射线方向的方差 σ r \sigma_r σr

image-20221101214937735

然后,进行相对坐标系到世界坐标系的坐标转换:

image-20221102003246890

进行重新参数化(reparameterization),再利用高斯分布的线性变换:

image-20221102004223965 image-20221102004242436

由高斯分布经三角函数变换后的均值:

image-20221102005226160

根据线性性质,得到IPE:

image-20221101215204479

对于 Σ γ \boldsymbol\Sigma_\gamma Σγ,由于PE向量的各个维度相互独立,因此文中的做法是只算对角:

image-20221102005508004 image-20221102005519075

这样,类比于2D图像中的高斯滤波,NeRF场景表征中的高频信息相当于是被平滑掉了,所以达到了 anti-aliasing 的效果。

In short, IPE preserves frequencies that are constant over an interval and softly “removes” frequencies that vary over an interval, while PE preserves all frequencies up to some manuallytuned hyperparameter L

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一杯半开水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值