CVPR'24 满分论文!LiSA:引入语义感知的LiDAR视觉定位网络

作者 | 空间感知与计算实验室  编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心技术交流群

本文只做学术分享,如有侵权,联系删文

8c68af4f79f53676049b934f378c5047.jpeg

63a07084c101a65a2092aa7f9441ea78.png

激光雷达定位根据每帧激光雷达点云数据估计传感器在全球中的绝对位置和方向,这是计算机视觉和机器人技术中的一项基本任务。

f45011a5b3d7287013b346a787b85dae.png

图1 激光雷达视觉定位的相关应用

在隐表达的激光雷达视觉定位领域中,场景坐标点回归(SCR)的方法因为能够有效的利用一些场景几何约束,它在定位精度上对比绝对位姿回归(APR)的方法有很大的优势。SCR的方法为点云中的每一个点都预测其对应的世界坐标系下的对应坐标,然后迭代优化来求解激光雷达的位姿。这种方式平等的使用了所有的点,但这显然是不合理的,直观上,动态的(例如行人和车辆)或重复的(例如路面和树木)物体应该不如显著的和静态的物体重要。

针对这一点,本文提出了LiSA,引入了额外的语义信息来解决这个问题。LiSA在传统的SCR网络的框架上,额外增加了语义分支,通过知识蒸馏的方式让定位网络学习来自分割网络的知识。同时由于较小的网络天然就可能存在较多的噪声,本方法使用了额外的扩散模型(Diffusion Model)来为学生模型预测的语义特征去噪。在推理过程中,只使用LiSA的SCR模块,将冻结的分割模块和知识蒸馏模块丢弃,有效的避免了增加额外的时间和算力开销,满足定位任务最重要的实时性需求,如图2所示。

e7df3592966ceb0ec29dd4e2c7573e79.png

图2 LiSA网络结构

表1、2和图3、4分别展示了LiSA和对比方法们在QEOxford和NCLT数据集上的定量结果和可视化定位轨迹。在QEOxford数据集上,LiSA在之前最好的定位方法SGLoc的基础上又提升了38%和29%的定位精度和定向精度;在NCLT数据集上,分别提升了17%和34%。可视化轨迹中,LiSA也展示出了最好的效果,几乎不存在离散点。

表1 LiSA和Baseline方法在QEOxford的定位定量结果

abca41f33cf89def127bc5aac03e2d3d.png

表2 LiSA和Baseline方法在NCLT上的定位定量结果

5f868a2882d3ed89eafde37f62631ece.png


eceb874b2b1864acfec1778557dd3ffb.png

图3 LiSA和Baseline方法在QEOxford的定位可视化结果

b1c72259f7e69bc88d3ce3ec1a8862e7.png

图4 LiSA和Baseline方法在NCLT上的定位可视化结果

21d51d29a3bee907f9e16b1c954e5a53.png

4d9c1f0b1fda775ebfa817b8ae035b51.png

由于定位常用的benchmark数据集通常不具有人工标注的语义标签,缺少语义分割的真值,本方法使用了现有的预训练好的分割模型来迁移使用。图5展示了使用不同分割方法的定性结果。

c8eef3cf9e72ea69f164065d7683dd73.png

图5 不同语义分割方法在QEOxford上的分割定性结果

本文进一步验证了LiSA在不同精度语义特征下的鲁棒性和使Diffusion Model去噪的优势。表3中可以很明显的看到,在语义分割效果较好的情况下,LiSA定位网络的精度也更高些,两者是正相关的。Diffusion Model对于精度也有一定的提升,特别是在语义特征质量相对较低的情况下。

表3 分析实验9dd6b8dda16ef8f128be9efcea08fa12.png

本方法将网络回归头之前的各个通道特征相加,并且映射到0-255区间,来考量各个点的激活值大小。从图6中可以看出,在引入了额外的语义信息之后,各个点的激活值分布区间更大,更均匀,这也说明了网络学会了为不同类别的点赋予不同的权重。图7具体展示了不同类别物体的激活值可视化结果。

ea88187de36be4c107bb41a9ce1966dc.png

图6 引入语义信息前后激活值分布

f6f9221f90bbd972a1b4be1ebcd12f32.png

图7 引入语义信息前后点云激活值可视化

总结

本文提出了一种新的用于激光雷达定位的场景坐标回归框架LiSA。据我们所知,LiSA是第一个将语义信息集成到基于回归的激光雷达视觉定位中的工作,不简单地依赖分割模型生成的标签,而是应用基于扩散的知识提取,将相关语义知识从分割模型直接转移到SCR网络中。这使得能够网络自适应提取有助于定位的语义知识,同时将噪声分割的负面影响降至最低。同时,由于基于蒸馏的训练,所有额外的模块都可以在训练后丢弃,从而避免了在推理过程中产生额外计算或网络参数。LiSA在具有挑战性的LiDAR定位数据集上实现了最先进的性能。

今年共提交了11532份有效论文,2719篇论文被接收,录用率为23.6%。其中:

- Poster论文有2305篇,占比84.8%。

- Poster highlight被认为特别具有创新性的论文,今年共有324篇(11.9%)。

- Oral论文共有90篇,占比3.3%。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

0167703995a12010b82b4335fb028623.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

2912bcd790b7ae07f5c3399c7f8237a3.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

48c94084c6526769a5e51f8a10e39181.jpeg

④【自动驾驶之心】硬件专场

fb2ec6c46dfee852ba792b99c1648fde.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值