VRS-NeRF:基于神经辐射场的视觉重定位了解一下?

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

c48edd64ae7dbf0dab169a4acf01b9b9.jpeg

0. 这篇文章干了啥?

视觉定位旨在估计在已知环境中捕获的给定图像的旋转和位置,大致可以分为绝对姿态回归(APR),场景坐标回归(SCR)和分层方法(HM)。APR将地图嵌入到高级姿态特征中,并使用多层感知器(MLP)预测6自由度姿态;它们对于大规模场景来说速度很快,但由于隐式3D信息表示,精度有限。与APR不同,SCR对像素进行3D坐标回归以直接构建2D-3D匹配,并使用PnP和RANSAC估计姿态。尽管在室内环境中具有很高的精度,但SCR无法扩展到室外大规模场景。HMs不使用端到端的2D-3D匹配预测,而是采用全局特征在数据库中搜索参考图像,然后建立提取的查询关键点和参考图像之间的对应关系;这些2D-2D匹配被提升为2D-3D匹配,并用于使用PnP和RANSAC的绝对姿态估计,就像SCR一样。由于精度高和灵活性强,HMs最近被广泛使用。然而,2D关键点存储的巨大内存成本损害了它们在实际应用中的效率。

这篇文章旨在找到一种高效准确的大规模视觉定位任务的解决方案。为了实现这一目标,作者采用了一种混合地图的方法,仅通过渲染有用的稀疏像素来实现NeRFs的高效定位。混合地图由两部分组成:显式几何地图(EGM)和隐式学习地图(ILM)。EGM包含稀疏的3D点以及它们在参考图像上的2D观测。ILM是由NeRFs表示的隐式地图。在测试时,参考图像的2D观测提供先验的稀疏像素位置和相机姿态作为NeRFs的输入。NeRFs返回每个稀疏像素的RGB值。为了提高精度,为每个像素渲染一个具有恒定大小的补丁。这些渲染的补丁进一步用于使用PnP和RANSAC进行绝对姿态估计的2D-3D匹配。

下面一起来阅读一下这项工作~

1. 论文信息

标题:VRS-NeRF: Visual Relocalization with Sparse Neural Radiance Field

作者:Fei Xue, Ignas Budvytis, Daniel Olmeda Reino, Roberto Cipolla

机构:剑桥大学、丰田汽车欧洲公司

原文链接:https://arxiv.org/abs/2404.09271

代码链接:https://github.com/feixue94/vrs-nerf

2. 摘要

视觉重定位是自动驾驶、机器人技术和虚拟/增强现实的关键技术。经过数十年的探索,绝对姿态回归(APR)、场景坐标回归(SCR)和分层方法(HMs)已成为最流行的框架。然而,尽管 APR 和 SCR 具有较高的效率,但在大规模室外场景中精度有限;HMs 具有较高的精度,但需要存储大量用于匹配的 2D 描述符,导致效率低下。在本文中,我们提出了一种高效且准确的框架,称为 VRS-NeRF,用于稀疏神经辐射场的视觉重定位。具体来说,我们引入了显式几何地图(EGM)用于 3D 地图表示和隐式学习地图(ILM)用于稀疏补丁渲染。在这个定位过程中,EGP 提供了稀疏 2D 点的先验信息,ILM 利用这些稀疏点使用稀疏 NeRF 渲染补丁进行匹配。这使我们能够丢弃大量的 2D 描述符以减小地图大小。此外,仅为有用的点渲染补丁,而不是整个图像中的所有像素,可以显著减少渲染时间。这个框架继承了 HMs 的精度,但丢弃了它们的低效率。对 7Scenes、CambridgeLandmarks 和 Aachen 数据集的实验表明,我们的方法比 APR 和 SCR 具有更好的准确性,并且与 HMs 的性能相近,但效率更高。

3. 效果展示

亚琛数据集上场景划分的可视化。场景的统一划分导致了不平衡的片段(左),在参考姿势上的聚类给出了更平衡的结果(右)。

fbe58a07bb0c22794f6ce57378c90f53.png

渲染图像的可视化。可视化了来自7 scenes(上图)、Cambridge landmarks(中图)和Aachen(下图)数据集的渲染和地面实况图像。

39cf1fd814822a564fd2b39c4e475e5c.png

匹配的可视化。可视化了来自7 scenes(顶部)、Cambridge landmarks(中间)和Aachen(底部)数据集的查询图像(左)和参考图像(右)之间的匹配。

830f2c1388a1062d9e04d48e50311da0.png

4. 主要贡献

(1)提出了一种混合方法,结合显式几何地图和隐式学习地图进行视觉定位,使定位系统高效且准确。

(2)仅为有用的稀疏关键点渲染补丁,而不是渲染图像,避免了耗时的渲染过程。

(3)采用基于聚类的策略进行场景划分,使NeRFs能够在大规模室外环境中工作。

5. 基本原理是啥?

借助EGM和ILM,VRS-NeRF能够在线渲染有用的像素,而不是依赖离线2D描述符进行匹配,从而使定位系统更加高效。为了使当前的NeRFs在大规模场景中工作,VRS-NeRF采用了基于聚类的策略来自适应自动地将场景划分为较小的场景。

b08b661b9f839cfd9a8939977ae74d78.png

6. 实验结果

将VRS-NeRF与之前的APRs和HMs进行比较。APRs给出了最大的误差,因为它们在定位过程中与图像检索具有相似的行为,导致姿态精度有限。由于大多数APRs只报告中位误差,因此它们的成功率不可用。SCRs由于其显式的三维坐标回归,获得比APRs高得多的准确性。HMs在中位误差方面实现了最佳准确性。然而,由于依赖稀疏关键点,它们对无纹理区域的鲁棒性较差,因此其报告的准确性比某些SCRs,如DSAC*和ACE稍差一些。尽管VRS-NeRF用于定位稀疏补丁,但其在中位误差方面的表现接近于HMs,并且在中位误差方面明显优于APRs和SCRs。与HMs类似,VRS-NeRF也对无纹理区域敏感。由于EGM继承了HMs的优点,它优于以前的方法LENS和NeRF-loc,它们分别将NeRFs引入了APRs和SCRs。

7a5c4096b238d487856e75dcb235d533.png

剑桥地标数据集上先前方法和VRS-NeRF的结果。报告中位平移(厘米)和旋转(°)误差以及误差阈值为25厘米,2°内的姿势成功率。由于缺少嵌入的三维信息,APRs的误差比SCRs大2倍以上。SCRs在中位平移和旋转误差方面报告了令人满意的准确性。然而,它们在25厘米,2°误差阈值内的成功率远远低于HMs。即使是最先进的DSAC*和ACE也无法达到与HMs相当的准确性。这些比较揭示了SCRs在户外场景中的准确性并不如预期那样高。HMs仍然是中位误差和成功率方面最准确的方法。由于VRS-NeRF也保留了显式的几何信息作为显式几何图,其结果与HMs一样准确,并且比APRs和SCRs准确得多。与先前基于NeRF的LENS和NeRF-loc相比,VRS-NeRF也实现了显着更好的准确性。

5e96c4a7744dbebb5cf5e2e8d93c5a55.png

地图大小和时间分析。地图大小。在表IV中,展示了APRs,SCRs,HMs和VRS-NeRF的地图大小。对于APRs和SCRs,地图大小是模型大小。对于HMs,地图大小是局部描述符,全局描述符和三维点的总和。由于VRS-NeRF舍弃了局部描述符并引入了NeRFs,VRS-NeRF的地图大小是全局描述符,三维点和NeRFs的总和。APRs和SCRs都是内存有效的,因为它们将地图压缩到神经网络中,以损失准确性为代价。由于存储了2D描述符,HMs的地图大小较大。SFD2+IMP的地图大小比SP+SG小,因为SFD2具有较小的2D描述符维度。通过舍弃2D描述符,VRS-NeRF显著减小了地图大小。

消融研究,探讨了不同补丁大小对姿势准确性的影响。表V显示,随着补丁大小从8×9增加到15×15,姿势准确性也增加。在国王学院这样的户外场景中,这一点更为明显,因为查询和参考图像的视角和照明变化较大。然而,对于室内场景,由于查询和参考图像之间的变化很小,增加补丁大小的改进并不明显。此外,随着补丁大小的增加,渲染一个补丁所需的时间也会增加。因此,最终的解决方案是在准确性和效率之间取得平衡。对于没有查询和参考图像之间大变化的室内场景,作者建议使用较小的补丁大小以提高效率。对于查询和参考图像之间有大视角,照明变化的室外场景,较大的补丁大小可以带来更好的准确性。

4acc9803c6e559fcd4fec8e3879eff13.png

7. 总结 & 未来工作

这篇文章提出了一种将NeRFs应用于视觉定位任务的新方法。具体来说,引入了显式几何地图(EGM)和隐式学习地图(ILM),以提供稀疏关键点和渲染补丁,以建立查询和渲染图像之间的稀疏匹配。通过从EGM提供的稀疏点进行稀疏渲染,VRS-NeRF避免了耗时的全图像渲染。通过NeRFs表示的ILM,VRS-NeRF舍弃了消耗内存的2D描述符。因此,VRS-NeRF更加高效。然而,与最先进的方法相比,在大规模亚琛数据集上的准确性仍然有限。作者希望这项工作可以成为一个基线,更多的研究人员可以在将来使其变得更好。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

e4314412c3cdd534d57337ddfc148bfe.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

2364ec0020990df150afda0b7148d25b.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

40d6da7138aab28c5e7ff2496c4ab987.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
6b564a6318f20893950ccbdc5c3a8355.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
e45098913e637d338ea25a50009d6636.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
b6d255113a700fe72b47e4ee3113f8f3.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
1f987da2a70e524f306b9a736dad9995.png硬件+源码工坊智能ROS小车
bd6160a54b9e284073607ce6990fa3eb.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
—   —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值