【论文解读】基于神经辐射场NeRF的像素级交互式编辑（Seal-3D）

本文链接：https://blog.csdn.net/weixin_42645636/article/details/135430317

来源：投稿作者：橡皮
编辑：学姐

论文链接：https://arxiv.org/pdf/2307.15131

项目主页：https://windingwind.github.io/seal-3d/

摘要：

随着隐式神经表征或神经辐射场（NeRF）的普及，人们迫切需要与隐式三维模型交互的编辑方法，以完成重建场景的后期处理和三维内容创建等任务。虽然以前的作品从不同角度探索了神经辐射场编辑，但它们在编辑灵活性、质量和速度方面受到限制，无法提供直接的编辑响应和即时预览。关键的挑战在于如何构想一种本地可编辑的神经表征，它能直接反映编辑指令并即时更新。为了弥补这一缺陷，我们提出了一种新的隐式表征交互式编辑方法和系统，称为 Seal-3D 1，它允许用户以像素级和自由的方式编辑 NeRF 模型，并可使用各种类似 NeRF 的骨干，还能即时预览编辑效果。为了实现这些效果，我们提出了将编辑指令映射到 NeRF 模型原始空间的代理函数，以及具有局部预训练和全局微调功能的师生训练策略。我们建立了一个 NeRF 编辑系统来展示各种编辑类型。我们的系统能以约 1 秒的交互速度实现引人注目的编辑效果。

图 1：Seal-3D：首个交互式像素级 NeRF 编辑工具。我们设计了一种交互式用户编辑方法和系统 Seal-3D，通过新颖的预训练策略实现即时（≈1 秒）预览（左图）。通过短时间（1 到 2 分钟）的微调，可以进一步获得高质量的编辑结果。我们所实现的编辑工具（右图）的编辑结果与原始表面（左图）上丰富的阴影细节（如阴影）一致。")

1.引言

隐式神经表征，如神经辐射场（NeRF），作为利用神经网络对三维场景进行建模的新型三维表征，受到越来越多的关注。NeRF 及其变体得益于较高的重建精度和渲染质量以及相对较低的内存消耗，已在三维重建、新颖视图合成和虚拟/增强现实等许多三维应用中展现出巨大潜力。

随着新的隐式表示法的普及和隐式三维模型数量的不断增加，人们迫切地需要便于人类使用的编辑工具来与这些三维模型进行交互。使用隐式神经表征进行编辑是全面增强表征能力所需的一项基本技术。由于采集数据的噪声和重建算法的局限性，从真实世界重建的物体很可能包含人工痕迹。在典型的三维扫描流程中，手动校正和细化以去除伪影是常见的阶段。另一方面，在 3D 游戏、动画和拍摄等 3D 内容创建应用中，艺术家通常需要根据现有 3D 模型创建新内容。

之前的工作已经尝试编辑 NeRF 表示的三维场景，包括对象分割、对象移除、外观编辑和对象混合等。这些现有的 NeRF 编辑方法主要侧重于粗粒度的对象级编辑，收敛速度无法满足交互式编辑的需求。最近的一些方法通过引入网格作为编辑代理，将 NeRF 编辑转化为网格编辑。这就要求用户在额外的网格工具上进行操作，从而限制了交互性和用户友好性。据我们所知，目前还没有一种方法能够支持以快速收敛速度对神经辐射场进行交互式像素级编辑，这主要是由于下面讨论的挑战所造成的.

现有的显式三维表示法（如点云、纹理网格和占位体积）存储了物体和场景的显式几何结构，与之不同的是，隐式表示法使用神经网络来查询三维场景的特征，包括几何和颜色。以基于网格的表征为例，现有的三维编辑方法可以通过移动与目标对象表面区域和对象纹理相对应的顶点来改变对象的几何形状。由于视觉效果和底层表示之间没有明确的可解释的对应关系，因此编辑隐式三维模型是间接和具有挑战性的。此外，很难在场景的局部区域找到隐式网络参数，这意味着网络参数的调整可能会导致不希望发生的全局变化。这给精细编辑带来了更多挑战。

为了弥补这一差距，我们在本文中提出了一种用于三维场景隐式神经表征的交互式像素级编辑方法和系统，并将其命名为 Seal-3D。这个名称借用了流行的二维图像编辑软件 Adobe PhotoShop，因为它的封印工具提供了类似的编辑操作。如图 1 所示，该编辑系统由四种编辑方式组成： 1) 边框工具。它可以变换和缩放边界框内的事物，就像复制粘贴操作一样。2) 画笔工具。它可以在选定的区域涂上指定的颜色，还可以增加或减少表面高度，就像油画笔或画笔一样。3) 锚点工具。它允许用户自由移动控制点，并根据用户输入影响其邻近空间。4) 颜色工具。它可以编辑对象表面的颜色。

为了实现交互式 NeRF 编辑效果，我们解决了上述隐式表征的难题。首先，为了建立显式编辑指令与隐式网络参数更新之间的对应关系，我们提出了一种代理函数，将目标三维空间（由交互式图形用户界面中的用户编辑指令确定）映射到原始三维场景空间，并提出了一种师生提炼策略，利用代理函数从原始场景中获取的相应内容监督来更新参数。其次，为了实现局部编辑，即在非局部隐式表征下减轻局部编辑效应对全局三维场景的影响，我们提出了一个两阶段的训练过程：预训练阶段仅对编辑区域的位置嵌入网格进行局部损失更新，同时冻结后续的 MLP 解码器以防止全局退化；微调阶段对嵌入网格和 MLP 解码器进行全局光度损失更新。通过这种设计，预训练阶段更新局部编辑特征，微调阶段将局部编辑区域与未编辑空间的全局结构和颜色相融合，以实现视图一致性。这种设计的好处是可以即时预览编辑效果：预训练可以快速收敛，并在大约 1 秒钟内呈现局部编辑效果。

总之