【论文笔记 - NeRFs - CVPR2022】Efficient Geometry-aware 3D Generative Adversarial Networks

原论文

仅使用单视2D照片数据来无监督地生成高质量的多视点一致的图像和3D形状是一个长期的挑战。现有的 3D GAN 要么是计算密集型的,要么进行了不满足 3D一致性的近似,前者限制了所生成图像的质量和分辨率,而后者对多视图一致性和形状质量产生了不利影响。

本文设法在不过度依赖这些近似的情况下,提高了3D GANs的计算效率和图像质量。提出一种显式-隐式混合的网络结构,该结构与其他设计选择一起,不仅可以实时合成高分辨率、多视角一致的图像,而且还可以生成高质量的3D几何。通过分离特征生成和神经渲染,本文的框架能够利用最先进的2D卷积生成器,如StyleGAN2,并继承它们的效率和表现力。

1. Tri-plane hybrid 3D representation

本文采取的三维场景表征方式是实现高效的 3DGAN 的关键,即要高效又富有表现力(特征能够表达丰富的信息,损失少)。

NeRF 中采用的是如图(a)所示的神经隐式表示,使用MLP来表征场景,在节省内存和表征复杂场景中有优势,但是由于每个点都需要进行一次前向传播,会花费大量时间进行计算;(b)中的显式表示法,是离散的,如体素,计算速度很快,但通常会产生大量的内存开销,难以扩展到高分辨率或复杂场景;本文提出了一个互补方案,显式-隐式混合的三平面表征tri-plane(c),使用节省内存的三平面表示法在轴对齐平面上显式存储由轻量级隐式特征解码器聚合的特征,以实现高效的体绘制,并可有效地随分辨率进行缩放,从而在相同内存消耗的情况下实现更多细节。

在本文的方法中,沿着三个轴对齐的正交特征平面对齐显式特征。在使用时,将空间中任意3D位置投影到三个特征平面上,通过双线性插值检索对应的三个特征向量,求特征向量的和作为该位置的属性。需要附加的轻量级解码器,将聚合的3D特征解码为颜色和密度。然后使用体渲染合成 RGB 图像,也可以等价到特征层面,即神经体渲染得到特征图。

从下面的实验结果中,可以看出 tri-plane 能够表示该复杂场景,尽管没有view-dependent effects,即观察角度不会影响空间中一点的属性,但在 PSNR 和 SSIM 方面优于其他两种方法。

同时在计算和存储效率方面提供了相当大的优势。对于N个特征的边长,tri-plane 只需要 O ( N 2 ) O(N^2) O(N2) ,而密集 voxels 需要 O ( N 3 ) O(N^3) O(N3),这意味着对于相同的容量和内存,本文的表征方法可以使用更高分辨率的特征并捕捉更多细节。

此外,还有另一个关键优势:可以使用现成2DCNN生成器得到特征平面,因此本文提出了新的3DGAN框架。

2. 3D GAN framework

有了高效和富有表现力的3D表征,本文用于从2D照片训练3DGAN进行几何感知图像合成,不需要任何显式的3D或多视角监督。

本文的 pipeline 如下所示,

  • 以相机参数和潜向量作为输入,通过映射网络得到中间编码用于调制;
  • 采用StyleGAN2 生成器来得到 tri-plane 特征,是因为stylegan2可合成非常好的2D图像,并且有表现良好的潜空间,支持风格混合和潜空间插值,这些特性同样也可用于三维场景表征中;
  • 只需要输入当前空间位置的混合特征(上面已经提到过如何选取和混合),轻量级特征解码器(MLP)就可以得到颜色特征和密度(标量)。然后通过神经体渲染得到给定相机视角下的特征图;
  • 通过超分模型(由stylegan2中的卷积模块组成),对神经渲染结果进行上采样和细化,得到最终的图像;
  • 为了保证多视图的一致性,将渲染得到特征图的前3个通道上采样,和最终的图像一同作为以相机参数为条件的StyleGAN2判别器。

2.1 Dual discrimination

本文使用了 StyleGAN2 的鉴别器,但有两个修改。

首先,引入双重判别作为避免不一致问题,保证神经渲染结果和超分结果之间的一致性。将神经渲染特征图 I F I_F IF 的前三个通道认为是低分辨率RGB图像 I R G B I_{RGB} IRGB,并进行双线性上采样到与超分图像 I R G B + I^+_{RGB} IRGB+ 相同的分辨率,组合成六通道的数据,作为判别器的输入。对于真实图像,先下采样再上采样得到模糊的图片,与原图组合作为输入。双重判别确保了 I R G B I_{RGB} IRGB 和超分图像 I R G B + I^+_{RGB} IRGB+ 之间的一致性。

其次,将当前的相机参数做为条件,引导生成器学习正确的3D先验(遵循 StyleGAN2-ADA 的条件策略)。

双重判别有一下几点作用,

  • 鼓励超分辨率图像与真实图像的分布相匹配;# Efficient Geometry-aware 3D Generative Adversarial Networks
  • 鼓励神经渲染结果与下采样的真实图像的分布相匹配;
  • 鼓励超分辨率图像与神经渲染结果保持一致。

基于最后一点,可以有效利用图像空间的超分层,防止引入视图不一致的伪影。

### 2.2 Modeling pose-correlated attributes

文中提到相机姿态与图片的其他属性存在一定关联,虽然对其进行准确建模可以合成更高质量的图片,但是在多视图的推理过程中,需要满足一致性,那么相机姿态和图片属性的解耦也是必要的。举例来说,对着人脸拍的照片与微笑有一定关系,如果将其准确建模,那么一旦改变视角,微笑也会发生变化,这就不满足一致性了。

因此,在映射网络中引入了相机参数作为条件,以此来建模并且解耦相机参数和其他属性之间的关系。在训练中,姿态就会建模与其相关的偏置,使模型能够生成与真实数据一样的分布。在推理过程中,为了防止场景随相机位姿发生变化,映射网络中会固定条件姿态,此时相机参数在映射网络、体渲染、判别器中是一致的,是准确建模。

这样的话,映射网络始终知道渲染相机的参数,生成器倾向于去生成对该姿态下渲染有益的信息。在推理阶段,固定位姿条件时,得到该条件下的场景表征,显然在该位姿下的渲染相机会得到较好的结果,但是移动渲染相机会产生伪影,如下所示。

因此在训练时,本文从数据集的姿态分布中,会随机采样一个姿态来做替换,以此起到正则化的作用,来避免以上的问题。


更多具体细节,建议参考原文!

**

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值