1摘要
作者提出了一种通过插值法来利用稀疏的邻近视点集来合成复杂场景的新视点的方法。这种方法的核心是一个网络架构,它包括一个多层感知器(MLP)和一个光线转换器(Ray transformer),它可以估计连续5D位置(3D空间位置 x x x和2D观察方向 d d d)的颜色值 c c c和体积密度 σ σ σ,从多个源视图中动态绘制外观信息。通过在渲染时绘制源视图,作者采用了一些基于图像的渲染(IBR)的经典工作中的方法,并可以以此渲染高分辨率的图像。与优化每个场景的渲染函数的NeRF不同,我们学习了一种通用的视图插值函数,该函数适用于新的场景。我们使用经典的体绘制来渲染图像,这是完全可微分的,并且允许使用多视角姿态图像作为监督来进行训练。实验表明,文中的方法比最近寻求推广到新场景的新的视图合成方法性能更好。此外,如果对每个场景进行微调(fine-tune),文中的方法与最先进的单场景神经渲染方法具有竞争力。
2论文创新点
IBRNet是完全可微分的,因此可以训练一个从多视角图像学习的端到端的网络框架。经过实验表明,经过在大量的数据集中学习训练,IBRNet可以生成包含复杂的几何和材质的高质量的未知视角的图像。总的来说,本篇论文的创新点如下:
(1)提出了一种新的基于机器学习的多视点图像绘制方法,该方法在新场景下的绘制性能优于现有的单视点合成方法。
(2)提出了一种名为IBRNet的新模型架构,它能够从多个视图预测连续空间中的颜色和密度。
(3)经过对单个场景的微调,其性能可与仅为单个场景重建设计的最先进的新视图合成方法相媲美。
3网络框架
整体的网络框架由两部分构成,第一部分是一个NeRF网络的MLP用于读入空间信息输出颜色值和体密度特征,第二部分是一个Ray Transformer用于读入光线上的所有采样点的体密度特征,输出体密度序列。之后,和NeRF一样,通过体渲染的方法得到图像的颜色信息与真实值进行计算比较,得到RenderingLoss再反向传播训练网络。
整个数据的详细处理流程如下:首先输入从所有的源图像中提取到的二维图像特征{
f
1
,
f
2
,
.
.
.
,
f
N
f_1,f_2,...,f_N
f1,f2,...,fN}输入到一个类似PointNet的MLP中,用以聚合局部和全局信息,得到多视图的感知特征特征{
f
1
′
,
f
2
′
,
.
.
.
,
f
N
′
f^{'}_1,f^{'}_2,...,f^{'}_N
f1′,f2′,...,fN′}和池化权重{
w
1
,
w
2
,
.
.
.
.
w
N
w_1,w_2,....w_N
w1,w2,....wN},利用这感知特征和池化权重,可以得到每个采样点的密度特征
f
σ
f_σ
fσ,文中并没有直接使用得到的密度特征
f
σ
f_σ
fσ进行体渲染,而是将一条光线上的所有采样点对应的密度特征
f
σ
f_σ
fσ输入到了一个RayTrasformer里面进行聚合,这样的好处是能够进行更大范围的几何推理,并提高更准确的密度预测精度。对于颜色值预测,是将密度特征
f
σ
f_σ
fσ和查询射线相对于所有源图像的相对方向连接起来,并预测一组混合权重,最后输出对应的加权平均值,得到颜色值。