LOLNeRF笔记

14 篇文章 3 订阅

LOLNeRF : Learn from One Look

主页https://ubc-vision.github.io/lolnerf/
论文https://arxiv.org/abs/2111.09996
代码:coming soon
Novel Views - CelebA-HQ 通过使用以共享潜在空间为条件的单个神经网络重建大量单视图图像来学习形状和外观空间 (左)。这允许从图像中提取体积3D模型,并从新颖的视角渲染 (右)。

效果展示

摘要

Abstract We present a method for learning a generative 3D model based on neural radiance fields, trained solely from data with only single views of each object. While generating realistic images is no longer a difficult task, producing the corresponding 3D structure such that they can be rendered from different views is non-trivial. We show that, unlike existing methods, one does not need multi-view data to achieve this goal. Specifically, we show that by reconstructing many images aligned to an approximate canonical pose with a single network conditioned on a shared latent space, you can learn a space of radiance fields that models shape and appearance for a class of objects. We demonstrate this by training models to reconstruct object categories using datasets that contain only one view of each subject without depth or geometry information. Our experiments show that we achieve state-of-the-art results in novel view synthesis and competitive results for monocular depth prediction.
译文:
我们提出了一种基于神经辐射场学习生成 3D 模型的方法,该模型仅从具有每个对象的单个视图的数据中进行训练。 虽然生成逼真的图像不再是一项艰巨的任务,但生成相应的 3D 结构以便它们可以从不同的视图进行渲染并非易事。 我们表明,与现有方法不同,不需要多视图数据来实现这一目标。 具体来说,我们表明,通过使用以共享潜在空间为条件的单个网络重建许多与近似规范姿势对齐的图像,您可以学习一个辐射场空间,该空间对一类对象的形状和外观进行建模。 我们通过训练模型来证明这一点,以使用仅包含每个主题的一个视图而没有深度或几何信息的数据集来重建对象类别。 我们的实验表明,我们在新颖的视图合成和单目深度预测的竞争结果方面取得了最先进的结果。

文章工作

• 提出一种从单视图图像中学习对象类别的 3D 重建的方法,该方法将训练复杂性与图像分辨率解耦;
• 表明单一视图足以在没有任何几何监督的情况下学习高质量的几何预测;
• 通过重建保留的图像和新颖的视图,表明我们的方法在从学习类别中表示对象外观方面超过了对抗方法。

算法框架

在这里插入图片描述

框架结构-我们的方法与前景和背景nerf一起学习每个图像的潜在代码表。体积渲染输出会针对每个训练像素造成每射线RGB损失,而针对图像分段器的alpha值则会受到损失。相机对准是从2Dlandmarker输出到特定于类的规范3D关键点的最小二乘拟合得出的。

通过最小化三个损失的加权总和来训练我们的网络参数和潜在代码Z:
ζ 𝑡 𝑜 𝑡 𝑎 𝑙 = ζ 𝑟 𝑔 𝑏 + λ 𝑚 𝑎 𝑠 𝑘 ζ 𝑚 𝑎 𝑠 𝑘 + λ h 𝑎 𝑟 𝑑 ζ h 𝑎 𝑟 𝑑 \zeta _{𝑡𝑜𝑡𝑎𝑙}=\zeta _{𝑟𝑔𝑏}+\lambda_{𝑚𝑎𝑠𝑘}\zeta _{𝑚𝑎𝑠𝑘}+\lambda_{ℎ𝑎𝑟𝑑}\zeta _{ℎ𝑎𝑟𝑑} ζtotal=ζrgb+λmaskζmask+λhardζhard

Method

公式为: L r g b = E k ∈ { 1.. K } , p ∈ I k [ ( C ( p ∣ z k ) − C G T k ( p ) ) 2 ] Lrgb = E_{k∈\{1..K\},p∈I_k}[(C(p|z_k) −C^k_{GT}(p))^2] Lrgb=Ek{1..K},pIk[(C(pzk)CGTk(p))2]

扩展了NeRF的“单场景”(即过拟合/记忆)公式,通过加入一个自动解码器架构来支持学习形状的潜在空间在这种改进的体系结构中,主要NeRF骨干网络的条件是每个对象的潜码 z ∈ R D z∈R^D zRD ,以及 l 维位置编码 γ L ( x ) γ^L(x) γL(x).密度和辐射函数的形式是 σ(x|z) 和 c(x|z)考虑一个公式,其中亮度不是视图方向 d 的函数这些潜码是潜表 Z ∈ R K × D Z∈R^{K×D} ZRK×D中的行,将潜表初始化为 0 K × D 0^{K×D} 0K×D,其中 K K K为图像数这种架构使得精确重构训练示例成为可能,而无需对编码器模型进行大量额外的计算和内存,并避免了从训练图像中提取3D信息需要卷积网络训练该模型遵循与单场景NeRF相同的过程,但从数据集中的所有 K 张图像中抽取随机射线,并将每条射线与图像中采样对象对应的潜在代码相关联。

Foreground-Background Decomposition

使用单独的模型来处理背景细节的生成。我们使用低容量模型 C b g ( d p ∣ z ) C_{bg}(d_p|z) Cbg(dpz)作为背景,以每射线为基础预测辐射。然后,我们通过使用从NeRF密度函数导出的透明度值组合背景和前景色来渲染:
C ( p ∣ z ) = α ( p ∣ z ) ⋅ C N e R F ( p ∣ z ) + ( 1 − α ( p ∣ z ) ) ⋅ C b g ( d p ∣ z ) C(p|z) = α(p|z) · C_{NeRF}(p|z)+ (1 − α(p|z)) · C_{bg}(d_p|z) C(pz)=α(pz)CNeRF(pz)+(1α(pz))Cbg(dpz)
从纯色背景颜色和360◦摄像头分布中自然地学习了前景分解
当预先训练的模块可用来预测训练图像的前景分割时,还应用一个额外的损失来鼓励NeRF体积的透明度与这个预测一致
ζ m a s k = E k ∈ { 1.. K } , p ∈ I k ( α ( p ∣ z k ) − S I ( p ) ) 2 ] \zeta_{mask} = E_{k∈\{1..K\},p∈I_k}(α(p|z_k) − S_I(p))^2] ζmask=Ek{1..K},pIk(α(pzk)SI(p))2]
S I ( ⋅ ) S_I(·) SI()是应用于图像 I k I_k Ik并在像素 p 处采样的预训练图像分割器
在人脸数据集上进行训练时,对上式中的预训练模块使用MediaPipe自拍分割,λ 掩码=1.0。

Hard Surfaces

有了足够的输入图像和足够的纹理表面,多视图一致性将有利于创建从空到实的硬过渡,该属性在单个视图情况下不成立。因为对应于每个潜码的场函数只从一个视点监督,这通常会导致沿视点方向的表面模糊
在这里插入图片描述

对权重 w 作为拉普拉斯分布的混合分布的概率施加先验,其中一个在权值为 0 附近的模态,另一个在权值为 1 附近的模态:
P ( w ) ∝ e − ∣ w ∣ + e − ∣ 1 − w ∣ P(w) ∝ e^{−|w|} + e^{−|1−w|} P(w)ew+e∣1w
该分布是峰值的,并将鼓励一个稀疏解,其中开放区间(0,1)中的任何值 w 都是不鼓励的,将此先验转换为损失
ζ h a r d = − l o g ( P ( w ) ) \zeta_{hard} = −log(P(w)) ζhard=log(P(w))
满足该约束条件的 σ(x) 的大小取决于采样密度,鼓励密度产生一个阶梯函数,该函数至少在一个采样区间内饱和采样权值,通过构造,它适合于被建模场景的规模.

Camera Parameters

体绘制需要相机参数将每个像素与用于计算样本位置的射线相关联,摄像机是通过运动结构对输入图像集进行估计,单视图用例,由于深度模糊,这是不可能的.

使方法与单视图图像兼容,使用了MediaPipe Face Mesh预训练的网络模块来提取出现在对象类的一致位置的2D地标.
在这里插入图片描述

地标和分段器-(对两个输入标识的地标和分段器网络的输出进行采样。蓝色圆圈(•)表示标识的地标。用于人脸的五个地标的示例网络输出.

然后,利用“形状匹配”最小二乘优化将这些地标位置与标准3D地标位置的投影进行对齐,以获得相机参数的粗略估计.

Conditional Generation

给定一个预先训练的模型,可以找到一个潜在的代码 z,它可以重建训练集中不存在的图像,由于潜伏表是与NeRF模型参数并行学习的,可以将这一过程视为潜伏表中额外一行的微调优化,这一行被初始化为潜表现有行的平均 μ Z μ_Z μZ,并使用与主模型相同的损耗和优化器进行优化
在这里插入图片描述

对于每种方法,展示了一个适合于训练方法的例子:对于π-GAN,一个从训练分布中采样的潜伏代码,对于论文的,一个学习到的重建训练图像的潜伏代码。由于在更高分辨率的图像上进行训练,论文的方法恢复了更清晰的细节。

Unconditional Generation

为了从模型学习到的空间中对新对象进行采样,从由潜表 Z 的行定义的经验分布 Z 中对潜码进行采样。 将 Z 建模为一个多元高斯,通过对 Z 的行进行主成分分析发现其均值为 μ Z μ_Z μZ,协方差为 χ Z χ_Z χZ。类似于其他生成模型对潜变量使用高斯先验,当抽样距离分布均值较远时, 观察到样本的多样性和质量之间的权衡。因此, 采用GAN中常用的“截断技巧”来控制这种权衡。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ACxz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值