【论文笔记 - NeRFs - NeurIPS2020】GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

本文是将 GAN 引入了 NeRF ,主要贡献如下,

  • 使用没有相机位姿的图像构建辐射场生成模型,除了能够改变视点外,还允许修改所生成对象的形状和外观,也就是改变三维场景的表征。
  • 在多个尺度上对图像进行采样(下面的Ray Sampling模块),先捕获全局内容,再细化局部细节,采用了类似 PatchGAN 的判别器。这是一种数据增强的方式,有助于稳定GAN的训练过程。

我们在NeRF中已经提到MLP的输入(位置和方向)和真实数据(图片)之间有一个gap,需要在预处理阶段得到每张图片的17个参数(相机位姿、相机内参、图像长宽、物体离相机的最近最远距离),根据这17个参数,才能确定一条光线以及采样点的坐标和方向。

如上所示, K \mathbf{K} K 表示相机内参, ξ \xi ξ 表示相机位姿, ν \boldsymbol{\nu} ν 表示采样模式。在训练阶段,为了保证效率,每次只对一个patch进行预测,如下左图所示,指定采样模式(patch的中心 u u u 和步长 s s s)来得到patch。在推理阶段,会对全图进行计算。有了这些信息,先后通过 Ray Sampling 、 3D Point Sampling 得到被采样的光线和光线上的坐标点,最后进行位置编码 γ ( ⋅ ) \gamma(\cdot) γ() 得到了和 NeRF 一致的输入。

在NeRF中MLP预测得到的不透明度 σ \sigma σ (表示形状)只与位置有关,颜色 c c c (表示外观)与位置和方向都有关,一个模型只能表征一个三维场景。GRAF为了使生成的场景多样化,额外引入了形状编码 z s z_s zs 和外观编码 z a z_a za 作为条件(如上右图),也就是说不同条件,表征的三维场景不同。

作者认为,在计算形状时不依赖外观编码和视角有助于保持多视图的一致性,并且能够将形状从外观中分离出来,促使模型依赖条件编码对三维场景的形状和外观进行分别建模。基于此,可以在推理阶段,通过改变两个编码,对形状、外观分别进行修改。如下所示,行向为固定了形状编码,修改外观编码,纵向为固定外观编码,修改形状编码。从中我们可以知道,作者采取的方法能够将形状从外观中分离出来,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值