【论文速递】ICCV2021 - 学习可编辑场景渲染的对象组件神经辐射场

最新推荐文章于 2024-10-15 10:20:47 发布

finnlankychy

最新推荐文章于 2024-10-15 10:20:47 发布

阅读量195

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/finnlankychy/article/details/129179202

版权

【论文速递】ICCV2021 - 学习可编辑场景渲染的对象组件神经辐射场

【论文原文】：Learning Object-Compositional Neural Radiance Field for Editable Scene Rendering

【作者信息】：Bangbang Yang, Yinda Zhang, Yinghao Xu, Yijin Li, Han Zhou, Hujun Bao, Guofeng Zhang, Zhaopeng Cui

获取地址：https://arxiv.org/pdf/2109.01847.pdf

博主关键词： 三维重建，神经辐射场，场景编辑

摘要：

隐式神经渲染技术在新视图合成方面取得了良好的效果。然而，现有的方法是将整个场景作为一个整体进行编码，这通常不能识别具体对象，并且无法进行高级编辑任务，如移动或添加家具。本文提出了一种新的神经场景渲染系统，该系统学习对象组件的神经辐射场，并对聚类的真实世界场景进行具有编辑能力的逼真渲染。具体来说，我们设计了一种新的双路径架构，其中场景分支编码场景几何和外观，对象分支对每个以可学习的对象激活码为条件的独立对象进行编码。为了在严重混乱的场景下进行训练，我们提出了一种场景引导的训练策略，以解决遮挡区域中的3D空间模糊问题，并学习每个物体的清晰边界。大量的实验表明，我们的系统不仅在静态场景新视图合成方面取得了具有竞争力的性能，而且在对象级编辑方面也产生了逼真的渲染。代码、数据集和经过训练的模型可在https://github.com/zju3dv/object_nerf.git获得。

关键词 -场景编辑，神经辐射场，双路径分支，场景引导。

![avatar][fig1str]

简介：

在现实场景中的虚拟漫游是虚拟现实和增强现实最令人渴望的体验之一。虽然早期的作品依赖于费力的捕捉和重建物理世界，例如几何、纹理、材料等，但新兴的神经渲染方法提供了巨大的机会，可以通过直接从一组姿势图像中学习并获得有前景的逼真图像来减轻这一任务。一个常见的后续问题是:我们是否可以修改场景，例如，移动或添加家具，同时仍然保持逼真的渲染能力。

不幸的是，现有的神经渲染方法并不能很好地支持这一点。早期的方法倾向于将整个可见场景编码成一个单一的神经网络，例如NeRF和SRN。虽然这些模型可以很好地处理小物体，但由于固定的网络容量，这些模型很难用于大规模场景。另一方面，一系列神经渲染方法利用体积表示对特定位置的局部信息进行密集编码，如NSVF，将可扩展性负担从网络参数迁移到场景表示，并在经验上产生更好的渲染质量。然而，场景表示和渲染网络通常对对象身份不可知，不支持高级别的编辑任务，如移动家具。

在本文中，我们提出了一个神经渲染系统，可以在现实场景中进行场景编辑。采用从真实场景和粗糙的2D实例掩模中捕获的姿态图像集合，我们的模型可以渲染整个场景，如同现实中一样，以及对物体进行操作，如移动、旋转或复制。其他工作中，与我们最相似的是OSF，该模型通过对每个对象学习一个模型，然后对每个节点进行联合渲染，以自底向上的方式实现可编辑的场景渲染。然而，他们的方法不学习现实世界中的物体排列，需要事先为每个单独的物体捕获训练图像，这对于混乱的场景图像是不可行的，因此只能在合成数据上进行验证。相比之下，我们的目标是设计一种自顶向下的方法，直接为整个场景学习统一的神经渲染模型，该模型服从捕获场景中的物体位置。为了支持对象操作，我们设计了一种新的条件神经渲染架构，能够在删除所有其他内容的情况下单独渲染每个对象，可以从新的视点、新的位置或复制进一步渲染。请注意，为了保证逼真的场景编辑，每个对象都必须在没有“背景出血”的情况下呈现出清晰的边界，这是仅用粗略的3D渲染掩模或包围框无法实现的。

![avatar][fig2str]

事实上，即使使用粗糙的2D实例掩模，在聚集的真实世界场景中学习这样一个对象组成的神经辐射场也不是一件简单的事情，这主要是由于遮挡区域的3D空间模糊。在过去，网络只能从特定对象的实例掩模内投射的光线中学习，并试图渲染该对象。然而，如果没有已知的几何图形，就不可能识别一个3D位置是否属于对象但被遮挡，这在混乱的场景模糊的结果。为了解决这个问题，我们学习了一个额外的紧凑场景分支，没有编辑能力，在训练过程中在线地提供沿着光线和密集深度的偏采样分布，这有助于识别应用无梯度的闭塞区域，而不是被监督为空白区域。场景分支还会渲染没有被实例分割标记的内容，以提供无缝的整个场景渲染。

综上所述，本文的贡献如下:首先，我们提出了第一个可编辑的神经场景渲染系统，该系统提供了一组姿态图像和2D实例掩码，支持高质量的新视图渲染和对象操作。其次，我们设计了一种新的双路径架构，为聚类的真实世界场景学习对象的合成神经辐射场，以解决遮挡模糊。最后，实验和广泛的消融研究证明了我们的系统和每个组件的设计的有效性。在保持高质量的可编辑场景渲染能力的同时，我们的系统在标准新视图合成方面表现与SoTA方法相当甚至更好。