加速500倍!IReNe让你的交互式NeRF更快!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

1e3bc161b2ee1c7e8573b9d7e535e4c5.png

0.这篇文章干了啥?

这篇文章介绍了一种名为IReNe的新方法,用于交互式地编辑NeRF(神经辐射场)模型。NeRF是一种用于渲染高质量三维场景的技术,但传统的NeRF编辑方法存在一些限制,如速度慢、需要多视角一致性和在物体边界处的精度等。为了解决这些问题,作者提出了IReNe方法,它可以通过单个用户编辑快速、准确地编辑NeRF模型。该方法的关键创新包括只重新训练颜色部分的最后一层,利用预训练模型中的视角相关信息,以及使用轻量级软分割网络限制编辑区域。实验结果表明,IReNe方法在编辑速度、交互性和编辑质量方面均优于现有方法,并且能够产生高质量的编辑效果。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:IReNe: Instant Recoloring of Neural Radiance Fields

作者:Alessio Mazzucchelli,Adrian Garcia-Garcia等

作者机构:Arquimea Research Center,Universitat Polit`ecnica de Catalunya等

论文链接:https://arxiv.org/pdf/2405.19876

2. 摘要

NERF技术的进步使得3D场景重建和新视角合成成为可能。然而,在保持照片级逼真度的同时高效编辑这些表示是一个新兴的挑战。最近的方法面临三个主要限制:它们在交互式使用时速度慢,缺乏对物体边界的精确控制,并且难以确保多视角一致性。我们引入IReNe来解决这些限制,实现在NeRF中快速、几乎实时的颜色编辑。利用预训练的NeRF模型和一张带有用户应用颜色编辑的单一训练图像,IReNe可以在几秒钟内迅速调整网络参数。这种调整使模型能够生成新的场景视角,准确地表示训练图像中的颜色变化,同时控制物体边界和视角特定效果。通过将可训练分割模块整合到模型中,实现了对物体边界的控制。该过程通过仅重新训练最后一个网络层的权重来提高效率。我们观察到,该层中的神经元可以被分类为负责视角相关外观的神经元和对漫反射外观有贡献的神经元。我们引入了一种自动分类方法来识别这些神经元类型,并且仅微调漫反射神经元的权重。这进一步加快了训练速度,并确保了在不同视角下颜色编辑的一致性。在一个新数据集上进行的全面验证,展示了相对于竞争对手的显著定量和定性进步,将速度提高了5倍至500倍。

3. 效果展示

与现有技术方法的定性比较。对于每种方法,我们展示了方法需要的用户输入作为一个小的叠加图像。对于PaletteNeRF,我们展示了图像的原始和编辑后的调色板。对于IReNe,我们展示了用户使用Photoshop(或任何类似的编辑工具)选择的区域。在该区域,我们可以通过修改区域内的HSV颜色来交互式地执行几种颜色编辑。

1eaaf725decea416f28c472a169897ed.png

IReNe的额外定性结果。第一列:原始场景,其他列:编辑后的场景。第1-2行:对花朵场景的两次部分编辑。第3-4行:相同场景的多色彩编辑。第三行有3次编辑:乐高身体(从黄色变为蓝色),乐高应急灯(从红色变为绿色),烤箱手套(从红色变为绿色)。第四行有2次编辑。第5-6行:单次编辑重新着色植被。

ccbc8d981a6573d4496c7fe38dff1e92.png

定性消融研究。来自结果的渲染图像详见表2。

f6d417663877501c7aeb894a2dacff8f.png

4. 主要贡献

  • 提出了一种新颖的方法,名为IReNe,用于对NeRF(神经辐射场)进行实时编辑,包括颜色编辑和局部视图效果编辑。

  • 实现了快速的NeRF编辑,通过仅重新训练颜色MLP的最后一层,大大减少了参数修改的数量,从而实现了接近实时的编辑效果。

  • 提出了一种方法,利用预训练的NeRF模型中的视图相关信息,确保编辑后的图像能够保持一致的视图效果。

  • 引入了一个轻量级的软分割网络,用于在目标区域中选择性地应用编辑,以防止编辑扩散到不需要修改的区域。

  • 在NeRF重新着色方面取得了第一个定量结果,创建了一个基准数据集,以便进行有意义且详细的比较。

  • 在定量和定性评估中,证明了IReNe方法在编辑质量和计算效率方面的优越性,相对于现有方法实现了显著的速度提升和编辑质量的改善。

5. 基本原理是啥?

这篇文章的基本原理是利用预训练的NeRF模型来实现对3D场景的实时编辑。其核心思想包括:

  • 快速编辑:通过仅重新训练NeRF模型中颜色MLP的最后一层,实现对整个NeRF的快速编辑。这种方法大大减少了参数修改的数量,从而实现接近实时的编辑效果。

  • 视图相关信息:利用预训练的NeRF模型中的视图相关信息,确保编辑后的图像能够保持一致的视图效果。这有助于避免编辑引入不一致的视图效果,如镜面反射等。

  • 软分割网络:引入了一个轻量级的软分割网络,用于在目标区域中选择性地应用编辑,以防止编辑扩散到不需要修改的区域。这有助于保持编辑的局部性。

通过这些方法,文章实现了对NeRF模型的实时编辑,包括颜色编辑和局部视图效果编辑,为NeRF模型的进一步应用提供了重要的基础。

74b449fc149dca169456206dc84e0868.png 729e98543bbea851660f7f8138cc9084.png 720152699645c9f032ceda5638224623.png 7fa6c15849567e598f5067321a59d69b.png

6. 实验结果

这篇文章的实验结果主要分为定量评估和定性评估两部分:

  • 定量评估:作者使用了一系列定量指标来评估他们的方法与现有方法的性能差异。他们与PaletteNeRF和RecolorNeRF进行了比较。通过重新训练模型以匹配编辑后的图像,他们获得了与这些方法相当的编辑质量。在定量指标方面,他们展示了在PSNR、SSIM和LPIPS方面的改进,表明他们的方法在编辑质量上优于现有方法。此外,他们还展示了与InstantNGP模型的性能比较,证明他们的方法接近于预训练模型的性能极限。实验结果还表明,他们的方法在计算时间上比现有方法有显著的加速。

  • 定性评估:作者进行了定性评估,与PaletteNeRF和ICE-NeRF进行了比较。他们展示了编辑后图像与原始图像的对比,以及编辑效果的视觉效果。通过与现有方法进行比较,他们展示了他们的方法在保持编辑一致性方面的优势,并展示了各种复杂编辑的效果。

3756093ee1758cbb79e65952ac53ebaf.png 93d95828b231636941d63c54cad56866.png

7. 总结 & 未来工作

我们引入了IReNe,这是一种新方法,可以通过单个用户编辑实现交互式NeRF编辑。所提出的方法不仅在速度和交互性方面优于当前的最新技术,还克服了现有方法的主要局限性,即多视角一致性和在物体边界处的精度。除了IReNe获得的高质量结果外,我们还提供了关于颜色如何编码在NeRF中的见解。我们希望这项工作可以激发进一步的研究方向,并使使用传统的2D/3D工具可能的用例和编辑工作流程现在可以通过IReNe在NeRF中实现。局限性和未来工作。我们工作的主要局限性之一是需要依赖外部编辑工具,如Photoshop,来实现完整的编辑。此外,虽然最后一层的重新训练和决定哪些权重冻结的方法对所选图像非常稳健,但软分割模型的结果在某些情况下可能很差。除了尝试解决这些限制之外,未来的工作还应该包括能够影响由编辑对象产生的间接照明对其他对象的影响,而不仅仅是重新着色区域的能力。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

8b24775a5616a51a314b6406595b93a9.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

0309b9366e46397c1a9d8ce9048339ca.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

47991c456c3347df0c1d0f3819e5f5f0.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
69d1b5bb11b9ffd80eed4b8c7d2d12b4.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
51f492a6e69854377020e5e16f55621d.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
928f75229f7ab3c8023e650e878197ee.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
3b36a244ba9e0368446774e0874c77ae.png硬件+源码工坊智能ROS小车
faef0ee1a4eda2aa67269ffbd9387632.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
—   —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值