清华 x 蔚来 | 解耦BEV神经匹配实现高效端到端视觉定位！

自动驾驶之心

于 2025-03-08 00:03:09 发布

阅读量289

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247657355&idx=3&sn=3275e46eea35c8193217bcfff3f3a2f8&chksm=cf195cc5f60f220bab61e8ea75f2adf3f62ec057d3b718b8b72aea93969c3de43d0ebdd2c4d1&scene=126&sessionid=0

版权

作者 | 自动驾驶专栏编辑 | 自动驾驶专栏

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

本文只做学术分享，如有侵权，联系删文

论文链接：https://arxiv.org/pdf/2503.00862

摘要

本文介绍了自动驾驶中基于解耦的BEV神经匹配实现高效的端到端视觉定位。精确的定位在高级自动驾驶系统中起着重要作用。传统的基于地图匹配的定位方法通过显式地将地图元素与传感器观测进行匹配以求解位姿，这通常对感知噪声较为敏感，因此需要成本高昂的超参数调试。本文提出了一种端到端的定位神经网络，它从环视图像中直接估计车辆位姿，而无需显式地将感知结果与高精地图进行匹配。为了确保效率和可解释性，本文提出了一种基于解耦的BEV神经匹配的位姿求解器，它在基于差分采样的匹配模块中估计位姿。此外，通过解耦受到位姿每个自由度影响的特征表示，使得采样空间大大减小。实验结果表明，所提出的网络能够进行分米级定位，在纵向、横向位置和偏航角方面的平均绝对误差为0.19m、0.13m和0.39°，同时在推理内存使用方面降低了68.8%。

主要贡献

本文的主要贡献总结如下：

1）本文精心设计了一个端到端定位网络，它使用环视相机感知到的语义BEV特征进行完全可微分且可解释的位姿估计，从而通过轻量级高精地图来实现分米级定位；

2）本文提出了一种网络中基于解耦的BEV神经匹配的位姿求解器，用于提取幅频特征和轴特征，以独立求解3自由度位姿。该方法极大地降低了计算成本，同时实现了与传统解决方案相当的定位性能；

3）本文在公开数据集上进行综合实验和详细的消融分析，以验证所提出方法的有效性。

论文图片和表格

总结

本文通过提出一种使用基于解耦BEV神经匹配的位姿求解器的E2E定位网络来解决视觉到高精地图的定位问题，确保了可解释性和计算效率，同时实现了分米级的定位精度。该网络通过完善的BEV感知主干网络和栅格化地图编码器来提取高维语义BEV特征和地图特征，克服了视觉图像和矢量化高精地图数据之间的模态差异。然后，将这两种特征传入基于解耦BEV神经匹配的位姿求解器中，其中受到纵向、横向位置和偏航角影响的BEV表示被解耦，使得能够以分而治之的方式独立求解3自由度位姿。本文在nuScenes数据集上对所提出的网络进行全面分析，结果表明，它能够在纵向、横向位置和偏航角方面分别实现0.19m、0.13m和0.39° MAE的高精度定位。此外，它将样本的数量从Nx×Ny×Nα减少到Nx+Ny+Nα，与传统的完全BEV神经匹配的方法相比，推理内存节省了68.8%，这对于高级自动驾驶精确且高效的位姿估计至关重要。

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）