理解老司机,超越老司机!LeapAD:具身智能加持下的双过程自驾系统(上海AI Lab等)...

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

💡 今天自动驾驶之心为大家分享知识驱动的自动驾驶新工作——LeapAD。LeapAD首次将心理学上的双过程理论应用到自动驾驶领域,结合了常识知识和大语言模型,通过外挂记忆模块以实现闭环自动驾驶决策制定并拥有持续进化的能力。通过不断对环境的交互积累经验,自我反思纠正错误的决策,从而实现持续学习。

也欢迎添加小助理微信AIDriver004,加入我们的技术交流群

>>点击进入→自动驾驶之心自动驾驶技术交流群

论文作者 | ADLab、APRIL Lab

编辑 | 自动驾驶之心

6a2dda5d255512d1eac6683e5704798e.png

论文信息

  • 论文题目:Continuously Learning, Adapting, and, Improving: A Dual-Process Approach to Autonomous Driving

  • 论文发表单位:浙江大学,上海人工智能实验室,华东师范大学

  • 论文地址:https://arxiv.org/abs/2405.15324

  • 代码地址:https://github.com/PJLab-ADG/LeapAD

78f5256255758253b97028bb3aa6a025.png

研究动机

最近的数据驱动方法在自动驾驶领域取得了巨大的成功, 然而,这些方法在很大程度上依赖于训练数据分布,它们主要是对观察到的模式进行归纳,而没有推论的能力。自动驾驶算法虽然能学会一些模式,但在遇到复杂情况时,它可能会做出错误的判断,因为它没有理解底层的语义信息和事物之间的关系。这就好比是,让一个只见过斑点狗的人来描述所有狗的外貌,可能会有些不准确。因此,迫切需要一种能够对未见过的场景进行推理并以人类认知方式利用驾驶知识的系统。

我们人类学习开车的过程其实是个不断尝试和学习的过程。人类司机会根据周围的情况作出决定,然后根据反馈来调整驾驶行为。这是因为人类的大脑有两套系统在协同工作:1) 一个是快速、基于经验的,就好像是直觉——启发式过程(系统-I);2) 另一个是缓慢、理性的,更像是逻辑推理——分析过程(系统-II)。这两种思维方式在我们学习开车的过程中都发挥了作用。

刚开始学开车的时候,我们很依赖常识和直觉。通过不断的练习和试错,我们逐渐培养出开车的技能,并且开始更理性地思考我们的行为。随着时间的推移,这些技能变成了习惯,就像是肌肉记忆一样,让我们在熟悉的路况下可以快速、本能地做出反应。即使我们拿到驾照后,我们还会通过日常的驾驶和意外事故来不断学习,不断提高我们的驾驶技能。

基于双过程理论的自动驾驶系统

基于上述动机,我们开发了一个具有不断学习、适应和改进能力的双过程闭环自动驾驶系统——LeapAD。与人类的注意力机制类似,LeapAD中的场景理解模块主要关注可能影响驾驶决策的关键物体,简化环境描述和决策过程。基于场景理解模块提供的环境描述,我们设计了一个模拟人类认知过程的双过程决策模块,包括启发式过程和分析过程。通过闭环实验,分析过程积累经验并构建包含高质量驾驶决策的可转移记忆库。这些知识可以适应各种场景并能够迁移到启发式过程中,用于后续的闭环决策。当交通事故发生时,分析过程介入并分析历史事件并更新记忆库,使系统能够通过自我反思不断改进。

LeapAD框架介绍

如下图所示,LeapAD由3部分组成:(1)用于场景理解的VLM;(2)由分析过程和启发式过程组成的双进程决策模块 ;(3)以及用于低级控制的操作执行器

67389d97d7c67f0f4c07bfb3adea19a8.png

场景理解模块:、我们人类在开车时会特别关注周围的重要事物,这样可以避免我们的大脑负担过重,提高我们的反应速度,减少出错的可能性。这种方法有助于我们更专注地驾驶,减少发生事故的可能。

在LeapAD中,场景理解模块的设计灵感来源于人类驾驶中的注意力管理,它聚焦于关键对象,以减少决策过程中的信息过载。通过这种方法,系统能够快速识别并理解车辆、自行车、交通信号、停车标志等重要元素,这些元素的详细描述有助于驾驶者做出准确和及时的反应。

基础视觉语言模型(VLM)在通用领域表现良好,但在驾驶特定领域的知识上有所欠缺。因此,我们采取了有监督微调(SFT)策略,利用11K个经过标注的数据样本,对VLM进行训练。这个过程让模型能够输出与驾驶决策直接相关的语言描述,包括:

  1. 语义属性:模型能识别并描述交通参与者(如车辆和自行车)和交通设施(如信号灯和标志)的类别。

  2. 空间属性:提供物体的位置信息,如边界框、车道位置以及与车辆的距离,这对于避免碰撞至关重要。

  3. 运动属性:物体的运动方向,帮助驾驶者预测其可能的动向。

  4. 行为推理:模型能理解这些物体对驾驶的影响,比如预测它们的行驶意图,从而支持驾驶者做出相应的决策。

通过这种方式,LeapAD的场景理解模块不仅提升了对驾驶环境的理解,还提高了驾驶者的决策效率和安全性,确保在复杂驾驶场景中保持灵活和警觉。

6faa10101a7363837cf34431e71d4f3c.png

分析过程:LeapAD的大脑,它像我们人类的理性思维一样,用逻辑推理来处理复杂情况,做出安全的驾驶决策。大语言模型(LLM) 通过在各种数据集上进行广泛的预训练,已经囊括了大量的世界知识,具有很好的推理理解和处理复杂问题的能力。这种能力恰好符合我们对驾驶场景中分析过程的需求,因为决策必须基于深入的环境分析和情境理解。分析过程利用 LLM 的强大功能,利用其蕴含的世界知识来理解场景描述并执行高质量的驾驶分析和决策。

分析过程通过闭环实验积累了很多经验,就像我们的记忆一样。这些经验可以帮助LeapAD在未来类似情况下更快速地做出反应。我们还引入了反思机制,就像是用分析过程来反思交通事故。就像下面的图表所示的那样,当系统的启发式部分在进行闭环驾驶时,任何意外事件都会触发反思机制。在这个过程中,分析过程会仔细分析事故发生前的情况,找出错误,并提供正确的决策。从这个反思过程中得到的见解会被整合到记忆库中,这样LeapAD就能不断地从失败中学习,并在未来的驾驶中做出更加明智、更准确的决策。

5e938c18cea62a8563c536c920addae5.png

启发式过程:就好比是LeapAD的直觉,它虽然不像分析过程那样能提供非常精确的推理和决策,但它的处理速度非常快,就像我们人类驾驶员的肌肉记忆一样。通过不断的练习和经验,它能够迅速适应各种情况,而且在处理速度上比分析过程快了很多(在我们的实验中大约快 5 倍)。为了让启发式过程更好地应用这些经验,我们使用了有监督微调(SFT),就像是把知识内化到直觉中,让它更好地适应各种情况。此外,它通过一种few-shot策略来增强对未曾见过的场景的处理能力,从而做出更加稳健的决策。

在few-shot策略中,启发式过程主要依靠当前场景描述与记忆库中存储的描述之间的特征相似性来检索相似的驾驶场景。然而,由于场景描述中存在冗余的语言信息,直接根据原始描述计算文本相似度使场景之间的区分变得困难。因此,我们聚焦于关键元素,如对象类别、车道位置以及与车辆的距离,来简化相似场景的查找过程。这样,我们优先考虑对驾驶决策影响重大的元素,提高了相似度计算的效率和决策的稳健性。这种方法有效地减少了冗余信息的影响,使得直觉在处理新场景时更加精准和有效。

实验结果

我们在 CARLA仿真中进行闭环实验,以评估LeapAD的性能。为了验证有效性,我们在Town05基准上进行了闭环驾驶场景的综合评估。我们的评估指标包括驾驶分数 (DS)、路线完成度 (RC) 和违规分数 (IS)。RC表示代理成功导航的路线的比例,IS表示因事故而受到的处罚。通过将 RC 乘以 IS,我们获得了最终的度量 DS,用于评估我们的方法在路线上的驾驶性能。

021d3624bb3a959ad84712c86b9f0791.png

如表1所示,LeapAD优于所有其他仅依赖相机传感器输入的方法此外,我们的方法超越了TransFuser,后者还利用了 LiDAR 传感器输入。

此外,我们还进行了一系列的消融实验来验证LeapAD的持续学习能力。我们发现,当shot个数从0个增加到3个,系统的闭环表现逐步提升。证明了记忆库中经验的价值和few-shot这种形式对反思过程的有效性。并且我们的实验还表明随着记忆库大小的增加,性能会逐渐提高。这进一步证明了我们提出的LeapAD的持续学习能力,表明我们的模型的性能可以随着经验的积累而提高。另外我们还从反思过程和记忆库的迁移性两方面的消融实验进一步证明LeapAD的可持续学习能力。我们选择了一些得分较低的路线进行多轮反思实验,反思后的经验被添加到记忆库中。通过图 5我们可以看到反思5次后,DS可以从29.34提升到88.89,这证明了反思机制能够显著提高LeapAD的性能。

927ef77efb58a2e40863a72792bd5d2e.png f6d9b93b3a723aa93170f92a2b7a22a8.png

Demo 示例

下面是几个简单的闭环实验示例:

这段视频主要展现了我们的模型对于车祸这种corner case的反应。即使训练数据中很少有这样的场景,面对突发情况LeapAD也可以及时制动。

这段视频主要反映了车应对复杂十字路口的情况,可以看到LeapAD可以轻松跟随红绿灯的指示。

这段视频反映了车辆面对一些停车标识和突然出现的行人的反应。车辆在经过并看到停止信号时停止,启动后,面对横穿的行人能够及时制动。

总结

LeapAD是一套先进的自动驾驶系统,它具备持续学习、灵活适应和不断优化的能力,仿佛赋予了车辆一颗智慧之心。与人类注意力的运作机制相类似,该系统能够精准捕捉对驾驶决策至关重要的信息,从而有效简化驾驶环境,降低决策过程中的复杂性。LeapAD拥有两种截然不同的决策模式。一种模式依赖于快速且基于经验的决策机制,仿佛人类的直觉一般迅捷而准确;而另一种模式则通过深入细致的分析推理来做出决策,就如同人类深思熟虑的过程。这两种模式共同协作,使LeapAD能够在各种驾驶场景中展现出卓越的性能。不仅如此,LeapAD还具备强大的自我完善能力,能够不断学习和进步。它能够与现有的智能汽车系统完美地无缝融合,在车辆运行过程中,LeapAD能够同时进行双过程决策,即在边缘运行中进行启发式决策,同时又能借助云端处理更为复杂的驾驶场景。这种独特的能力使得LeapAD在自动驾驶领域脱颖而出,为未来的智能交通发展奠定了坚实的基础,为人们提供更为安全、舒适的驾乘体验。

*如果你对知识驱动的自动驾驶有兴趣,请关注ADLab团队的其他相关工作:

  • 综述:Towards Knowledge-driven Autonomous Driving (https://arxiv.org/abs/2312.04316)

  • DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models (https://arxiv.org/abs/2309.16292)

  • OASim: an Open and Adaptive Simulator based on Neural Rendering for Autonomous Driving (*https://arxiv.org/abs/2402.03830

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

fd99c7976041ca4a99e889d16146f4a5.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

472e33725671fb2c0fa9c78e677b4f13.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

f4da0ba486fe73c3225ad46b8cbfa6dd.jpeg

④【自动驾驶之心】全平台矩阵

43cdc6c862b8e4d84eb3cc3c5cfa20cf.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值