ECCV2024 | 性能大幅提升,NeRF怎么做视觉定位?

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心分享一篇基于神经位姿特征的视觉定位技术,已被ECCV2024收录。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心ECCV2024技术交流群

编辑 | 自动驾驶之心

论文地址:https://arxiv.org/abs/2403.12800
项目主页:https://gujiaqivadin.github.io/posemap/

c560d4e72c4c4645b88731e67e66b44e.png

方法概述:
这篇文章首次提出了一种用于相机定位的神经体位姿特征——PoseMap,利用神经体中编码的视角特征刻画图像的相机位姿信息。该文将PoseMap与神经辐射场(Neural Radiance Fields,NeRF)结合设计了NeRF-P模块,并将它与绝对位姿回归(Absolute Pose Regression,APR)框架进行结合,提出了一种新的相机位姿回归网络结构。这种结构不仅有助于合成新视角图像以丰富训练数据集,而且能够有效学习姿势特征。此外,该方法还拓展了网络结构以达到在线阶段的自监督训练目的,实现在统一框架内使用和微调框架来处理未标记相机位姿的额外图像,进一步提高相机位姿估计精度。实验表明,该方法在室内和室外场景相机位姿估计任务中平均实现了14.28%和20.51%的性能增益,超越了现有APR方法。

1. 问题背景

基于图像的相机定位技术是3D视觉领域中学术界与工业界聚焦的一项关键任务,对于实现三维重建、自动驾驶、环境感知及AR/VR应用的深度交互至关重要。近期,绝对姿态回归(Absolute Pose Regression, APR)作为一种创新方法,日益受到瞩目。该方法与传统基于结构技术(如Structure from Motion, SfM)形成对比,通过单一神经网络推理即可直接估计相机位姿,显著提升了处理速度与效率,同时在处理无纹理或重复纹理图像时展现出更强的鲁棒性。APR通常依托监督学习框架,利用图像与其对应相机姿态对来训练回归模型,进而使模型能够直接为新的查询图像预测相机位置与方向,开辟了相机定位研究的新前景。

然而,APR的一个核心挑战在于其性能依赖于训练集覆盖的场景多样性,即观察场景越丰富,位姿估计越精确。这突显出扩充高质量带标签图像数据集的重要性。神经渲染技术,如NeRF( Neural Radiance Fields)技术的出现为这一挑战提供了新的解法。这些技术使得从任意视角合成逼真场景图像成为可能,为相机定位系统提供了强大的数据扩充手段。例如,DFNet与LENS等研究通过整合NeRF生成的图像到训练流程中,致力于缩减真实与合成图像间的特征差异,有效提升了算法性能。

更进一步,这篇文章认识到NeRF与APR之间存在着深刻的内在联系:NeRF通过“位姿到图像”的映射构建场景,而APR则执行相反的“图像到位姿”的逆向操作。这暗示着双方可以实现更深层次的协同——不仅限于将NeRF生成的图像简单作为额外训练数据,而是探索如何在NeRF的渲染机制内嵌入对相机位姿本质的理解,利用NeRF深化APR对场景结构与相机位置的洞察力。通过建立NeRF与APR任务的耦合有望推动相机定位技术实现更精准、高效的位置与姿态估算能力。

由此,该文首次提出了一种用于相机定位的神经体位姿特征——PoseMap,利用神经体中编码的视角特征刻画图像的相机位姿信息。本文将PoseMap与NeRF结合设计了NeRF-P模块,并将它与APRNet结构进行结合,提出了一种新的相机位姿回归网络结构。这种结构不仅有助于合成新视角图像以丰富训练数据集,而且能够有效学习姿势特征。此外,该文还拓展了本文的网络结构以达到在线阶段的自监督训练目的,实现在统一框架内使用和微调框架来处理未标记相机位姿的额外图像,进一步提高相机位姿估计精度。实验表明,该方法在室内和室外场景相机位姿估计任务中平均实现了14.28%和20.51%的性能增益,超越了现有APR方法。

2. 实现方法

给定一组图片和对应的相机位姿,该目标是训练一个神经网络是的对于一张输入图片,可以直接预测它对应的相机位姿。图1展示了整个算法流程。

3e14f2a2cf54f754ea8646798901090c.png
图1:基于PoseMap的相机定位流程。

它主要包含2个模块:APRNet和NeRF-P。其中,APRNet利用单独的分支抽取输入图像的图像特征,并且估计相机位姿。对于给定的位姿真值,NeRF-P渲染合成图像,并同样抽取其图像特征。此外,本文提出了一种隐式的位姿特征,成为PoseMap。整体设计主要来源于以下两方面的思考:

  1. 现有技术大多聚焦于利用NeRF的正向渲染过程,却忽略了挖掘神经体中编码特征的价值。鉴于NeRF中实质上已经集成了图像和姿态信息,在其内部应该已经蕴含了每个相机姿态的信息,等待进一步发掘。

  2. 遮挡、边界以及阴影是相机定位的重要视觉线索,它们通常被编码为神经网络中的深层特征。这从直觉上表明,姿态估计应当与这些富含信息的特征图紧密关联。

整个训练流程分为2个步骤:先完成NeRF-P的训练,随后将之整合进APRNet的训练流程。而在实际应用的推理阶段,仅需APRNet即可迅速完成预测。

  1. NeRF-P作为NeRF的拓展版本,不仅服务于新观察角度图像的合成,而且在其设计中融入了对更精细相机位姿特征PoseMap的学习监督(见下图2)。与CROSSFIRE[1]及NeFeS[2]尝试利用NeRF合成CNN图像特征的想法不同,PoseMap更关注于建立3D场景隐含信息与相机位姿之间的直接联系,通过NeRF的本征特征来指导生成PoseMap特征图。

f5e1f8a58c1d50f69b1162fe238cd9e7.png
图2:PoseMap生成过程。
  1. APRNet的训练结构如图1所示,该过程使用带相机位姿真值的标注图片,并利用NeRF-P来训练APRNet。该方法在损失函数设计不仅使用了预测位姿与实际位姿之间的均方误差(MSE),还引入了基于NeRF-P生成的PoseMap的余弦相似度误差。此外,该方法借鉴了DFNet[3]的随机视图合成(RVS)策略,通过使用相同的图像特征三元组误差项,有效缓解图像域差异,同时防止了特征空间的坍塌现象,从而提升了模型的整体泛化性能和稳定性。

920cf4e6f30aa39ae41f439ad45c8a08.png
图3:自监督的在线特征对齐框架。
  1. 由于APR算法的效果受限于训练数据,而大量无相机位姿信息的场景图像(如互联网图像)易于获取,专门设计了利用这些无标签数据的训练策略,进一步提升APR的效果。一方面以预训练的APRNet的低层特征作为图像特征;另一方面以NeRF-P得到的PoseMap作为位姿特征。通过计算输入图像经过APRNet预测的位姿后,由NeRF-P渲染出的图像与原输入图像之间的特征匹配误差,以及输入图像预测位姿与基于同一渲染图预测的位姿之间的位姿特征差异,该方法构建了一个闭环的自我监督训练过程。该流程图3所示,有效融合无相机姿态信息的图像数据,以增强模型的泛化能力和预测精度。

更详细的算法描述,请参考论文原文。

3. 实验效果

该算法分别在两个相机定位评测数据集(7-Scenes室内场景数据集和Cambridge Landmarks室外场景数据集)上进行了测试和对比。与同类方法对比,该方法在相机位姿估计的平移和旋转误差方面都有明显优势。

表1展示了算法在7-scenes数据集上的评测结果。

fdf03e21298b307f43c76f321db9a1c0.png
表1:7-scenes数据集上的评测结果。统计了该方法和单帧APR方法的相机位姿估计平移误差(单位:米)和旋转误差(单位:度)。为了更好的可视化,最佳结果用粗体蓝色进行了标识。

表2展示了算法在Cambridge Landmarks数据集上的评测结果。

9f95dd59803b426efa6a4d31620ffcf1.png
表2:Cambridge Landmarks数据集上的评测结果。

同时,本文也从相机位姿可视化图上(图4)评估了算法的先进性。其中三维坐标系中红色表示预测相机位置,绿色表示真实位置;colorbar中颜色从蓝到黄表示旋转角度误差从小到大。由图可见,该方法预测的相机位姿序列整体上更接近真实相机位姿序列。

e6a9d8b9f49d87237c8df1d66086834b.jpeg
图4:与DFNet_dm算法在7-scenes数据集上的相机位姿估计可视化比较结果。

此外,该方法还通过PCA 降维的方式直观可视化了PoseMap的具体图像(图5)。从左到右包括:显示输入的真实图像(左)、估计的姿势的渲染图像(第二列)、APR 特征图(第三列)和PoseMap(右)。可以看到,与 APR 图像特征相比,该方法提出的 PoseMap 特征通过聚合光线样本的全局属性来捕获相机姿态的隐式特征,从而产生比 2D-CNN 主干网络具有更清晰几何信息的局部特征,这对于相机定位任务具有更大的意义。

4. 局限性

与其它基于学习的方法类似,PMNet 也与 NeRF 和 APRNet 有相同的局限性。首要,姿态估计的精确性深受合成图像质量的影响,这突显出对鲁棒性更强的 NeRF 模型的需求,以强化输出结果的可靠性。其次,当前依赖于APR的相机定位技术没有充分利用场景中固有的几何结构信息,未来研究可考虑融入更为明确的结构性信息元素,如2D轮廓线与3D深度信息。最后,采用层次化优化策略,可以在测试环节进一步提升估计结果。

5. 总结与展望

本文介绍了一种新颖的神经体位姿特征 PoseMap,旨在提升相机定位效果。该特征通过神经体刻画了相机位姿的隐式信息,并且可以通过在NeRF基础上加入位姿分支进行渲染。基于位姿特征提取模块,这篇文章开发了一种新的 APR 框架。该框架允许通过自监督的方式使用未标记的图像进行在线优化。实验表明,该方法在室内外数据集上,与基于深度学习的相机定位技术相比,平均性能提升了14.28%和20.51%,超越了现有的APR方法。

该方法与基于几何结构的方法相比,在估计效率方面有明显优势,但是在估计精度方面仍有差距。但基于APR的相机定位技术在定位精度方面拥有巨大的提升空间,一种可能的方式是将更多的几何结构特征融入到APR框架中,通过几何结构提供更精确的定位信息。

6. 参考文献

[1] Moreau, A., Piasco, N., Bennehar, M., Tsishkou, D.V., Stanciulescu, B., de La Fortelle, A.: Crossfire: Camera relocalization on self-supervised features from an implicit representation. 2023 IEEE/CVF International Conference on Computer Vision (ICCV) pp. 252–262 (2023).
[2] Chen, S., Bhalgat, Y., Li, X., Bian, J., Li, K., Wang, Z., Prisacariu, V.A.: Refinement for absolute pose regression with neural feature synthesis. ArXiv abs/2303.10087 (2023).
[3] Chen, S., Li, X., Wang, Z., Prisacariu, V.A.: Dfnet: Enhance absolute pose regression with direct feature matching. In: ECCV. pp. 1–17. Springer (2022)

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

71cbffe9279a4b9377073c4808f226ba.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

dfcd96666d5b3db3674488315c1abdac.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

70a8460a2888b5980d622f3bdc7d57fc.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

d8ee86cd3fdf621bbeb07ed821da59c6.jpeg

④【自动驾驶之心】全平台矩阵

4640a8ae56836a4d134729914b14e0bb.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。 目标检测任务可分为两个关键的子任务,目标定位和目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标和右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率和各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择性搜索)来生成候选框。第二个阶段是分类和位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类和定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表性的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果和当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框和真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中Precision和Recall的概念。 首先我们设置置信度阈值(Confidence Threshold)和IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 Precision和Recall的概念如下图所示: Precision表示TP与预测边界框数量的比值 Recall表示TP与真实边界框数量的比值 改变不同的置信度阈值,可以获得多组Precision和Recall,Recall放X轴,Precision放Y轴,可以画出一个Precision-Recall曲线,简称P-R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值