泛化NeRF系列：IBRNet 学习基于多视点图像的绘制

最新推荐文章于 2024-04-18 09:39:17 发布

略略略06

最新推荐文章于 2024-04-18 09:39:17 发布

阅读量1.3k

点赞数 1

分类专栏： NeRF论文学习文章标签：学习计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_44916258/article/details/125027713

版权

NeRF论文学习专栏收录该内容

2 篇文章 2 订阅

订阅专栏

1摘要

作者提出了一种通过插值法来利用稀疏的邻近视点集来合成复杂场景的新视点的方法。这种方法的核心是一个网络架构，它包括一个多层感知器(MLP)和一个光线转换器（Ray transformer），它可以估计连续5D位置(3D空间位置 $x$ 和2D观察方向 $d$ )的颜色值 $c$ 和体积密度 $σ$ ，从多个源视图中动态绘制外观信息。通过在渲染时绘制源视图，作者采用了一些基于图像的渲染(IBR)的经典工作中的方法，并可以以此渲染高分辨率的图像。与优化每个场景的渲染函数的NeRF不同，我们学习了一种通用的视图插值函数，该函数适用于新的场景。我们使用经典的体绘制来渲染图像，这是完全可微分的，并且允许使用多视角姿态图像作为监督来进行训练。实验表明，文中的方法比最近寻求推广到新场景的新的视图合成方法性能更好。此外，如果对每个场景进行微调（fine-tune），文中的方法与最先进的单场景神经渲染方法具有竞争力。

2论文创新点

IBRNet是完全可微分的，因此可以训练一个从多视角图像学习的端到端的网络框架。经过实验表明，经过在大量的数据集中学习训练，IBRNet可以生成包含复杂的几何和材质的高质量的未知视角的图像。总的来说，本篇论文的创新点如下：
（1）提出了一种新的基于机器学习的多视点图像绘制方法，该方法在新场景下的绘制性能优于现有的单视点合成方法。
（2）提出了一种名为IBRNet的新模型架构，它能够从多个视图预测连续空间中的颜色和密度。
（3）经过对单个场景的微调，其性能可与仅为单个场景重建设计的最先进的新视图合成方法相媲美。

3网络框架

在这里插入图片描述
整体的网络框架由两部分构成，第一部分是一个NeRF网络的MLP用于读入空间信息输出颜色值和体密度特征，第二部分是一个Ray Transformer用于读入光线上的所有采样点的体密度特征，输出体密度序列。之后，和NeRF一样，通过体渲染的方法得到图像的颜色信息与真实值进行计算比较，得到RenderingLoss再反向传播训练网络。

在这里插入图片描述
整个数据的详细处理流程如下：首先输入从所有的源图像中提取到的二维图像特征{ $f_1,f_2,...,f_N$ }输入到一个类似PointNet的MLP中，用以聚合局部和全局信息，得到多视图的感知特征特征{ $f^{'}_1,f^{'}_2,...,f^{'}_N$ }和池化权重{ $w_1,w_2,....w_N$ },利用这感知特征和池化权重，可以得到每个采样点的密度特征 $f_σ$ ,文中并没有直接使用得到的密度特征 $f_σ$ 进行体渲染，而是将一条光线上的所有采样点对应的密度特征 $f_σ$ 输入到了一个RayTrasformer里面进行聚合，这样的好处是能够进行更大范围的几何推理，并提高更准确的密度预测精度。对于颜色值预测，是将密度特征 $f_σ$ 和查询射线相对于所有源图像的相对方向连接起来，并预测一组混合权重，最后输出对应的加权平均值，得到颜色值。

4实验结果

在这里插入图片描述

项目主页
 论文代码
 论文链接

略略略06

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
泛化NeRF系列：IBRNet 学习基于多视点图像的绘制

1摘要作者提出了一种通过插值法来利用稀疏的邻近视点集来合成复杂场景的新视点的方法。这种方法的核心是一个网络架构，它包括一个多层感知器(MLP)和一个光线转换器（Ray transformer），它可以估计连续5D位置(3D空间位置xxx和2D观察方向ddd)的颜色值ccc和体积密度σσσ，从多个源视图中动态绘制外观信息。通过在渲染时绘制源视图，作者采用了一些基于图像的渲染(IBR)的经典工作中的方法，并可以以此渲染高分辨率的图像。与优化每个场景的渲染函数的NeRF不同，我们学习了一种通用的视图插值函数，该
复制链接

扫一扫