NeRFLiX、NeRFLiX++论文笔记

NeRFLiX: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-viewpoint MiXer

一、概述

        在真实世界场景中,存在潜在的不完美校准信息和场景表示的不精确性,从源图中恢复高质量的细节对于现有的基于NeRF的方法仍然具有挑战性。即使有高质量的训练帧,NeRF模型产生的合成新视图仍然存在显著的渲染伪影,如噪声、模糊等。为了提高基于NeRF的方法的合成质量,该论文通过学习退化驱动的视点间混合器,提出了NeRFLiX。论文设计了一种NeRF风格的退化模型方法,能够有效去除NeRF原生渲染伪影。除了退化去除之外,论文还提出了一种视点间聚合框架,该框架能够融合高度相关的高质量训练图像,将尖端NeRF模型的性能提升到全新的水平,并产生高度逼真的合成视图。

二、introduction

1. NeRF的局限性

NeRF的一个先决条件是对训练所拍摄的照片进行精确的相机设置,准确校准相机姿势在实践中是极其困难的,同时很难推广到看不见的视图。另一方面,表示复杂几何体、照明、对象材质和其他因素的能力受到NeRF的简化场景表示的限制。基于这些限制,先进的NeRF模型仍然可能导致显著的伪影(如模糊、噪声、细节缺失等),本文中将其称为NeRF型退化。

2. 现有的解决办法
  • 联合优化了相机参数和神经辐射场,以尽可能精确地细化相机姿态,从而解决相机校准问题;
  • 提出了同时考虑物体材料和环境照明的物理感知模型,而不是使用MLP或神经体素来隐式编码几何结构和外观;

不管复杂的物理感知渲染模型如何,是否有可能设计一个实用的NeRF不可知恢复器来直接增强合成的视图?

3. 从低级视觉(BSRGAN、Real-ESRGAN等)出发,尝试进行NeRF型退化的建模

论文证明了现有最先进的图像恢复框架可以用于消除NeRF视觉伪影。此外,由于在典型的NeRF设置中,相邻的高质量视图是已知的,因此可以使用多帧聚合和融合模块进行基于视频的恢复。论文提出了一种退化驱动的视点间“混合器”,它在像素和补丁级别上逐步对齐图像内容。为了最大限度地提高效率和性能,还提出了一种快速视图选择技术,只选择最相关的参考训练视图进行聚合,而不是使用整个NeRF输入视图。

BSRGAN:为真实世界的图像超分辨率设计了一种实用的退化方法。在它们的降解过程中,多次降解被考虑并以随机顺序应用,很大程度上涵盖了现实世界降解的多样性。

Correspondence estimation:视频恢复方法[3,6,49,53,70]旨在从多个低质量帧中恢复高质量帧。为了实现这一目标,跨帧对应估计对于有效地聚合信息性的时间内容至关重要。一些工作[5,6,65,70]探索通过光流估计建立像素级对应关系,并执行用于多帧补偿的帧扭曲。另一系列工作[50,56,81]试图使用可变形卷积网络(DCN[12])进行自适应对应估计和聚合。最近,基于Transformer的视频恢复模型[4,30]通过注意力机制实现了时空聚合,并取得了良好的性能。

三、方法

1. 论文主要创新点
  • NeRF渲染退化模拟器(NDS):构建了大量的配对数据,并帮助训练深度神经网络,以提高NeRF渲染图像的质量;
  • 视点间混音器:能够混合高质量的相邻视图,以实现更有效的修复;
2. Overview

  NeRFLiX主要包含NeRF型退化模拟器(NDS)和视点间混合器(IVM)

  • 训练阶段,利用NDS创建随后用于训练IVM的大规模配对训练数据。IVM使用两个对应的参考视图来改进渲染的视图。
  • 推理阶段,采用IVM通过融合来自所选最相关参考视图的有用信息来增强渲染视图。
3. NeRF-Style Degradation Simulator (NDS)
  • 从LLFF-T1和Vimeo90K中收集原始数据,其中相邻帧被视为原始序列。每个原始序列由三个图像{Igt,Ir1,Ir2}组成:目标视图Igt及其两个参考视图{Ir1,Ir2}。为了从原始序列构建配对数据,我们使用所提出的NDS来退化Igt,并获得模拟的降解视图I,如图所示。退化的主要流程如下图所示,分别会目标视图采用如下退化方法:飞溅的高斯、重新定位、各向异性模糊退化。其中RA为区域自适应策略。

  •  Splatted Gaussian noise:尽管在图像/视频去噪中经常使用加性高斯噪声,但NeRF渲染噪声明显不同。由于相机参数嘈杂,击中3D点的光线将被重新投影到附近的2D区域内。结果,NeRF风格的噪声被分散在2D空间上。所以采用飞溅高斯噪声,g是各向同性高斯模糊核(沿着某一方向,梯度方向相同为同性)(均值为0,方差为0.01-0.05)

  •  Re-positioning

        设计了一个重新定位降级来模拟光线抖动。对于位置(i,j)处的像素,添加随机2D偏移δi,δj∈[-2,2],概率为0.1。

  •  Anisotropic blur

       NeRF合成帧也包含模糊的内容。为了模拟模糊模式,我们使用各向异性高斯核来模糊目标帧。

  • Region adaptive strategy

       以空间变化的方式进行每一种所采用的降解,更具体地说,我们将掩模M定义为二维定向各向异性高斯。使用掩码M来线性混合每次退化的输入和输出,最终实现区域自适应退化。

  •  最后,使用NDS,可以获得大量的训练对,并且每个配对数据由两个高质量参考视图{Ir1,Ir2}、一个模拟退化视图I和相应的目标视图Igt组成。接下来,使用构建的配对数据{I,Ir1,Ir2|Igt}来训练我们的IVM。

4. Inter-viewpoint Mixer (IVM)

一种混合的递归视点间“混合器”,它逐渐融合了来自两个高质量参考视图的像素和补丁内容,实现了更有效的视点间聚合。共有三个模块,即特征提取、混合视点间聚合和重构。

在特征提取阶段使用两个卷积编码器来分别处理退化视图I和两个高质量参考视图{Ir1,Ir2}。然后,我们使用基于视点间窗口的注意力模块和可变形卷积来实现递归逐块和逐像素聚合。最后,在Igt监督下使用重建模块生成增强视图。

patch-wise aggregation:

首先通过3D补丁分割层将像素明智地融合的特征划分为多个3D切片。然后,我们通过线性嵌入操作获得3D令牌,并使用视频Swin变换器块聚合逐块信息。最后,将三维面片重新组合为三维特征图

5. View Selection

基于针孔相机模型来制定视图选择问题,从与渲染视图I最重叠的输入视图中选择两个参考视图{Ir1,Ir2}。

 论文中以最小的相互匹配成本选择了两个参考视图{Ir1,Ir2}。同时,在训练阶段,论文也采用这种策略来决定LLFF-T[37]数据的两个参考图。

球查询算法个人理解:

(1)对于视图i和视图j,对于视图i中的一点m,在视图j中找到一点n使其与m的L2距离最小,以此类推,找到视图i中所有点的位于j视图的最近点;

(2)求所有最近点的L2距离之和记为Ci-j,即i匹配j;

(3)采用同样的算法计算Cj-i,将Ci-j与Cj-i相加求得匹配权重;

(4)计算所有视图之间的匹配权重,最小的即定义为最相似。

四、实验

1. 设置

  • 迭代30万次
  • 批量大小为16,补丁大小为128
  • 数据集:包括LLFF、Tanks and Temples和Noisy LLFF Synthetic
  • 2D高斯噪声图n是以零均值和0.01至0.05范围内的标准偏差生成的。各向同性模糊核g的大小为5×5。我们使用高斯模糊核通过随机选择核大小(3-7)、角度(0-180)和标准偏差(0.21.2)来产生模糊内容。最后,为了获得方程中的区域自适应混合映射M

证明了NeRFLiX方法的有效性,表明它在各种数据集上持续提高了尖端NeRF方法的性能。

四、总结

论文提出了NeRFLiX,这是一种用于高质量神经视图合成的一般NeRF不可知恢复范式。系统地分析了NeRF渲染管道,并引入了NeRF风格退化的概念。为了消除NeRF型伪影,论文提出了一种新的NeRF型退化模拟器,并构建了一个大规模的模拟数据集。得益于我们的模拟数据集,我们展示了如何训练SOTA深度神经网络来去除NeRF伪影。为了进一步恢复NeRF渲染帧的缺失细节,我们提出了一种视点间混合器,该混合器能够聚合从自由视点捕获的多视点帧。此外,我们开发了一种视图选择方案,用于选择最相关的参考框架,在很大程度上减轻了计算负担,同时获得了优异的结果。大量实验验证了NeRFLiX的有效性。

From NeRFLiX to NeRFLiX++: A General NeRF-Agnostic Restorer Paradigm

一、概述

基于NeRFLiX,我们进一步提出了具有更强的两级NeRF退化模拟器和更快的视点间混频器的NeRFLiX++,实现了卓越的性能,并显著提高了计算效率。值得注意的是,NeRFLiX++能够从嘈杂的低分辨率NeRF渲染视图中恢复照片逼真的超高分辨率输出。大量实验证明了NeRFLiX++在各种新的视图合成基准上具有优异的恢复能力。

二、introduction

1. NeRFLiX存在不足

NeRFLiX在合成高保真度的新视图方面表现出了卓越的性能,从而将NeRF模型的能力扩展到了新的领域。然而,有两个观点值得进一步研究:(1)手动退化设计在考虑真实NeRF渲染伪影的色散方面的不足,以及(2)使用大型视点间混合器处理高分辨率帧的困难。

2. 改进

通过引入两阶段退化模拟方法,结合更有效的引导视点间混合器,将NeRFLiX扩展到NeRFLiX++。这种改进的框架不仅实现了优越或可比的性能,而且显著提高了推理效率。

  • Two-stage degradation simulation:提出了一种两阶段退化模拟方案,该方案由手工制作的退化模拟器和深度生成退化模拟器组成。在第一阶段,我们使用了与NeRFLiX类似的退化管道,但结合了更基本的退化(即照明喷射和亮度压缩),以获得最初退化的帧。在第二阶段,我们利用生成对抗性训练来优化第一阶段的输出,使其在统计上更接近NeRF渲染的视图。然而,由于目标域中的样本有限,为我们的方法训练深度生成网络是具有挑战性的。我们观察到,传统的像素对像素监督实际上限制了模拟噪声的多样性。因此,论文提出了一种利用图像自相似性的新方法,并为对抗性训练引入了加权前K好友损失。具体而言,在给定模拟补丁的情况下,我们从真实样本(NeRF渲染图像)中搜索K个最相关的“伙伴”(图像补丁),然后将其用于提供弱监督。这种方法显著增强了生成模式的多样性,从而改进了退化建模。
  • Guided inter-viewpoint mixer:为了克服NeRFLiX处理高分辨率帧的效率挑战,NeRFLiX++提供了一种更有效的引导视点间聚合方案。以低分辨率估计密集的逐像素对应(光流)来实现这一点(原因:下采样操作导致图像之间的位移较小,这降低了估计的难度;渲染视图和参考视图的分布变得更接近,从而产生更准确的对应估计;计算上更有效)。然后,我们通过利用在较低尺度上预测的运动场来在较高尺度上聚合信息,从而采用从粗到细的引导聚合。这种策略消除了对递归高分辨率对应估计的需要,大大提高了计算效率。

3. 论文主要贡献

  • Accurate NeRF Degradation Modeling;
  •  Efficient inter-viewpoint mixer . 有效地整合来自多个视点的信息,实现超高分辨率帧的快速准确处理;
  • High-quality super-resolution. 从嘈杂的1K NeRF渲染视图生成照片逼真的4K帧。

三、方法NeRFLiX++

1. Two-stage Degradation Modeling

所提出的两阶段退化建模方法包括手动设计的退化模拟器和深度生成退化模拟器,如图所示。在第一阶段,使用多个手工制作的降级生成初始化的降级帧。在第二阶段,使用深度生成退化模拟器来细化第一阶段的结果并生成最终的模拟视图。

(1)Manual Degradation Simulator

除了NeRFLiX中使用的三种基本退化,即飞溅高斯噪声、重新定位和各向异性高斯模糊之外,我们还引入了两种补充退化模式。同时采用与NeRFLiX中相同的区域自适应降解策略。

  • Illumination jetting

       为了考虑视图相关着色导致的照明变化,我们建议对目标视图和参考视图进行伽马调整,定义为:

y = power(x, γ) 

其中power表示指数函数,γ是从[0.95,1.05]中随机采样的线性调整常数。

  • Lightness compression

提出了一种降低目标帧灰度密度的图像压缩过程。我们首先将RGB帧转换为LAB颜色空间,并使用JPEG算法以随机选择的压缩级别(20%至90%之间)压缩L分量。然后,我们将退化的L通道与原始AB通道合并,并将它们变换回RGB颜色空间。

(2)Deep Generative Degradation Simulator

论文提出了一种深度生成退化模拟器,该模拟器细化了手动退化阶段的结果,并缩小了模拟域和目标域之间的差距。但是直接利用生成对抗网络判别存在来自神经辐射场的数据稀缺问题。为了解决这一问题,NeRFLiX++提出了一种加权的top-K相似性损失(WKS),作为辅助损失函数,以帮助对抗性训练。

 如图所示,改论文使用UNet处理第一阶段退化视图^{I_{s1}},以获得细化结果^{I_{s2}}。除了传统的对抗性和重建损失外,我们还利用WKS产生具有更多多样性的结果^{I_{s2}}

  • WKS:给定^{I_{s2}}的第i个补丁,使用三重距离函数从相应的真实渲染视图i中搜索前K个相似的补丁g*i,{1,2,··,K},如公式 (9) 。在获得前K个相似补丁之后,所提出的WKS公式化为公式(10) 。

加权top-K相似性损失采用了一种动态策略来从真实渲染的帧中搜索多个相关的补丁,丰富了监控信号的多样性。这种方法鼓励模型找到高度相似的目标补丁,这些补丁的退化程度比预定义的标签更接近,从而实现更准确、更有效的训练。

2.  Guided Inter-viewpoint Mixer

由于NeRFLiX计算费用高昂,处理高分辨率帧仍然不切实际。NeRFLiX++提出了G-IVM,首先利用 off-the-shell optical flow model 以低分辨率预测渲染视图I与其参考视图{I1,I2}之间的粗略对应。在粗略预测作为指导的基础上,我们提出了一种金字塔神经网络来进行从粗到细的聚合。

NeRFLiX++的引导视点间混合器是NeRFLiX中IVM方法的扩展,包括三个积分模块:特征提取、引导视点间聚合和金字塔重建。

 (1)Coarse corresponding estimation

我们利用预先训练的SPyNet[43]模型来预测下采样4倍下的光流。

(2)Feature extraction

引入了两个卷积编码器,以从渲染视图I及其两个参考视图I{1,2}中提取深金字塔图像特征F{1/8,1/4,1/2}和F{1/8、1/4,1/2}。

(3)Guided inter-viewpoint aggregation

采用流引导可变形卷积(FDCN)技术,利用SPyNet计算的光流来促进F^{1/8}及其相应参考视图特征的聚合。

(4)Pyramid reconstruction and multi-scale supervision

 四、实验

五、总结 

我们介绍了NeRFLiX,这是一种用于神经视图合成的高质量恢复的一般NeRF不可知范式。我们系统地分析了NeRF渲染管道,并引入了NeRF风格退化的概念。为了消除NeRF型伪影,我们提出了一种新的NeRF型退化模拟器,并构建了一个大规模的模拟数据集。通过在模拟数据集上训练最先进的深度神经网络,我们成功地去除了NeRF伪影。此外,我们提出了一种视点间混合器,通过聚合多视图帧来恢复NeRF渲染帧中缺失的细节。大量实验验证了NeRFLiX的有效性。为了进一步提高NeRFLiX的恢复能力和推理效率,我们提出了NeRFLiX++。它通过结合更好的退化建模和更快的视点间聚合技术,改进了NeRFLiX。NeRFLiX++实现了逼真的4K视图合成能力,并实现了卓越的定量和质量。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值