HDMapNet:高精度语义地图的动态构建

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

5881b91390c0833d0065a4ee54a95bfe.jpeg

编辑丨算法邦

今天和大家分享工作的是自动驾驶中高精度语义地图的动态构建。内容主要是解读我们组最新的论文HDMapNet: A Local Semantic Map Learning and Evaluation Framework。

01

什么是高精地图?

d6af191cd29f2c8323f59cb31775cde4.gif

高精地图提供了精准的、综合的道路几何与语义信息,是其他自动驾驶模块(如定位、感知、预测和规划)不可或缺的一部分。

02

高精地图提供了哪些要素?

108cbbe3bc6ffa6f3c9d8819a0082ec3.gif

高精地图通常包含两部分,第一部分是影像地图(Imagery Map),主要包括3D雷达点云、反射率、高度、斜率等物理信息。第二部分是语义地图(Semantic Map),主要提供了丰富的标注信息,如道路的向量化表示、类型(车道、自行车道或公交车道)、速度限制、车道线类型(虚线、实线、双实线)等等。那么在本文中,我们主要关注语义地图的构建,因为它是被自动驾驶任务所用到的部分。

03

高精地图是怎样生成的?

832a34fc4c6c2a88aafb2ccec51f8dae.gif

高精地图的生成涉及到了定位、融合、检测、标注等复杂的流程。在生成高精地图之后,还需要不时地对其进行更新,以适应路况信息的变化。

10ac964b18614e17c58fecbad068ab33.jpeg

高精度地图的生成流程

04

那么高精地图能做什么呢?

7c286d7ce8802ab149568eb7b13916f9.gif

高精地图提供了:

  • 精准的定位

  • 超出相机视觉范围的感知能力

  • 实时的计算能力

举例来说, 高精地图可以提供精确的路标/路灯的3D位置,从而使得自动驾驶汽车不需要对其进行检测和识别。

a6615160a1cd902b3ebfdb85f6c07c53.jpeg

道路信息位置的精确标注

05

HDMapNet

99218b2ba92497409dbc0ba13ce8ad5e.gif

虽然高精地图能够提供丰富的信息,但标注、 维护高精地图需要耗费大量的人力和资源,因而限制了其的可拓展性。为此,我们提出了一种使用车载传感器(相机 and/or 雷达)来动态构建局部高精地图的方法HDMapNet。

985b5636d79fe476ad970e39db2d64d7.jpeg

要想使用车载传感器进行高精地图构建,主要需要解决2个问题:道路预测向量化和从相机前视图到鸟瞰图的视角转换。

向量化(Vectorization)是指我们最终得到的地图信息不是图片形式的,而是用点、线、框等几何形状表示的,这种表示在地图的下游任务使用、存储等方面都有巨大优势。HDMapNet的decoder输出3个分支:语义分割semantic segmentation、实例分割instance embedding、方向预测direction prediction。然后通过后处理的手段来将这些信息处理成向量化的道路表达。

b9abadf9f4936b6a38838af149efde2c.jpeg

至于从相机前视图到鸟瞰图视角转换,由于没有图片上每个像素点的深度信息,我们无法简单地利用几何投影将图像投回到鸟瞰视角。一种做法是假设地面高度全部为0,直接通过Inverse Perspect Mapping[3]来进行投影。但因为地面会有倾斜,再加上车的颠簸,我们并不能保证车道线被正确的投影到鸟瞰视角。Lift-Splat-Shoot[4] 很巧妙的利用attention的方式端到端地学了一个深度,但是因为没有显式的深度作为监督,所以实际的性能并不是很好。在这里,我们参考了VPN[5]的做法,使用全连接网络来让network自己学习如何进行视角的变换。与其不同的是,我们显式地使用了相机外参来将从不同相机抽取的特征拼接到鸟瞰视角,从而提升了特征在鸟瞰视角的分辨率。

a03e71178b71f22ecf5e88dcef595504.jpeg

此外,我们还提出了semantic level和instance level结果的评价方式,以方便对semantic HD map的构建进行评价,这里就不赘述了。

我们也可以对HDMapNet的输出进行时序融合,构建出一个随着车的行进不断扩展的高精地图,如下图所示。是不是很有意思!

06

参考

abb76bc1d4fd7333ab7fd98e67470840.gif

  1. Machine Learning Assisted High-Definition Map Creation https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8377682

  2. HDMapNet: A Local Semantic Map Learning and Evaluation Framework https://arxiv.org/abs/2107.06307

  3. Inverse Perspective Mapping https://csyhhu.github.io/2015/07/09/IPM/

  4. Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D https://nv-tlabs.github.io/lift-splat-shoot/

  5. Cross-view Semantic Segmentation for Sensing Surroundings https://view-parsing-network.github.io/

  6. nuScenes 数据集 https://www.nuscenes.org/

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

3fe9a2d9f4b0524adad96b8c35fb9441.jpeg

▲长按加微信群或投稿,加微信:dddvision

b2b968ffdc8b36868ef33f17c37429d0.jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近6000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

6f0c6a105ead7545ecd9d0f36e4ebd6b.jpeg

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

<think>好的,用户想了解如何使用VLM(视觉语言模型)构建二维地图。我需要结合提供的引用内容来回答这个问题。首先,我得明确VLM在这里的作用,以及如何利用其处理视觉和语言信息的能力来辅助地图构建。 根据引用[2],VLM可以处理视觉和语言输入,比如CLIP模型将图像和文本映射到共享潜在空间。这可能意味着VLM可以用于图像的特征提取,帮助识别环境中的关键元素。引用[1]提到使用VLM的注意力图来突出显示导航的关键区域,这可能对地图构建中的特征提取有帮助,比如识别道路、障碍物等。 接下来,引用[3]和[4]讨论了在自动驾驶场景中使用VLM进行场景理解和生成适应不同天气的图像。这可能涉及到使用VLM分析前方图像,提取语义信息,比如车道线、交通标志等,这些信息可以转化为二维地图的元素。 用户的问题是如何构建二维地图,可能需要将VLM处理的视觉信息转换为二维坐标。可能的步骤包括:图像采集、特征提取(使用VLM的注意力机制或图像编码器)、语义信息标注、坐标映射,最后整合成地图。 需要注意的是,VLM本身可能不直接生成地图,而是提供高层次的语义信息,需要与其他技术(如SLAM)结合。比如,VLM识别物体和场景,而SLAM处理空间定位和地图构建。引用[1]中的注意力图可能用于增强关键区域的识别,提高地图的准确性。 此外,引用[4]提到使用扩散模型生成驾驶场景图像,这可能用于数据增强,帮助VLM在训练时更好地适应不同环境,从而提升地图构建的鲁棒性。 总结步骤:使用VLM处理图像输入,提取特征和语义信息,结合定位技术将信息映射到二维坐标系,最后整合生成地图。需要验证在模拟环境和真实场景中的效果,如引用[3]所述。</think>### 如何使用 VLM 构建二维地图 使用视觉语言模型(VLM)构建二维地图的核心思路是通过其多模态理解能力,将视觉感知与语义信息结合,生成具有环境特征和语义标注的二维空间表示。以下是具体实现步骤: --- #### 1. **视觉信息提取与特征对齐** - **图像编码器应用**:使用 VLM 的图像编码器(如 CLIP 的 $CLIP_I$)处理输入的视觉数据(例如摄像头捕获的驾驶场景图像),提取高维特征向量[^2]。 - **注意力图蒸馏**:通过提取 VLM 中间层的注意力图(如引用[1]中的方法),识别图像中的关键区域(如道路边界、障碍物、交通标志),并通过结构相似性指数损失(SSIL)对齐导航相关的感知特征。 ```python # 示例:使用 CLIP 提取图像特征 import clip model, preprocess = clip.load("ViT-B/32") image_features = model.encode_image(preprocess(image)) ``` --- #### 2. **语义标注与空间映射** - **语言-视觉关联**:将 VLM 的文本编码器(如 $CLIP_L$)生成的语义标签(例如“十字路口”“人行道”)与图像特征关联,形成语义-空间对应关系[^2]。 - **坐标转换**:结合传感器数据(如激光雷达或深度相机)或单目深度估计,将图像中的像素坐标转换为二维平面坐标,生成初步的栅格地图。 --- #### 3. **动态场景建模与数据增强** - **多天气泛化**:利用 WeatherDG 等方法生成不同天气条件下的场景图像(引用[4]),提升 VLM 对复杂环境的适应能力。 - **行为指令融合**:在自动驾驶场景中,将 VLM 输出的行为指令(如“左转”“避让行人”)与二维地图动态更新结合(引用[3])。 --- #### 4. **地图优化与验证** - **注意力引导优化**:通过 VLM 的注意力图修正地图中的模糊区域(例如阴影遮挡部分),增强地图的可靠性[^1]。 - **仿真与真实测试**:在 CARLA 仿真环境中验证地图的拓扑结构(引用[3]),并在真实数据集(如 HawkDrive)中测试泛化性。 --- #### 关键技术挑战 - **特征对齐精度**:需解决视觉特征与二维坐标的尺度、旋转不变性问题。 - **实时性要求**:VLM 的计算开销可能限制地图更新频率,需通过模型蒸馏或轻量化改进。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值