地平线&港大最新端到端进展!HE-Drive:VLM+扩散模型发大力

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享地平线&港大等团队在端到端自动驾驶上的最新工作—HE-Drive!使用视觉大语言模型模仿人类驾驶行为的端到端算法。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心端到端自动驾驶技术交流群

论文作者 | Junming Wang等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

本文提出了HE-Drive:首个模仿人类驾驶为核心的端到端自动驾驶系统,旨在生成同时具备时间一致性和舒适性的轨迹。近期研究表明,基于模仿学习的规划器和基于学习的轨迹评分器能够有效生成并选择高度模仿专家演示的准确轨迹。然而这类轨迹规划和评分器面临生成时间不一致且不舒适的轨迹的困境。为了解决上述问题,HE-Drive首先通过稀疏感知提取关键的三维空间表示,这些表示随后作为条件输入,传递给基于条件去噪扩散概率模型(DDPM)的运动规划器,生成具备时间一致性的多模态轨迹。随后,基于视觉语言模型(VLM)引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆,确保类人的端到端驾驶体验。实验结果表明,HE-Drive在nuScenes和OpenScene数据集上实现了SOTA性能(即比VAD减少了71%的平均碰撞率)和效率(即比SparseDrive快1.9倍),同时在真实世界数据中提供了最舒适的驾驶体验。

  • 代码链接:https://github.com/jmwang0117/HE-Drive

总结来说,本文的主要贡献如下:

  • 基于扩散的运动规划:本文提出了一种基于扩散的运动规划器,通过以稀疏感知网络提取的3D表示为条件,并结合历史预测轨迹的速度、加速度和偏航角,生成时间一致性和多模态的轨迹。

  • 即插即用的轨迹评分:本文引入了一种新颖的基于视觉语言模型(VLMs)引导的轨迹评分器及舒适度指标,弥补了类人驾驶的不足,使其能够轻松集成到现有的自动驾驶系统中。

  • 优秀的开环和闭环测试结果:HE-Drive在nuScenes和OpenScene数据集上实现了最先进的性能(即相比VAD减少了71%的平均碰撞率)和效率(即比SparseDrive快1.9倍),同时在真实世界数据集上将舒适度提升了32%,展示了其在各种场景中的有效性。

文章简介

705cac2c8bdb885d118129554d5cee36.png

图1:本文展示了HE-Drive,这是首个类人端到端驾驶系统。HE-Drive将多视角传感器数据作为输入,并在复杂场景中输出最优行驶路径。

端到端范式将感知、规划和轨迹评分任务集成到一个统一模型中,以规划目标进行优化,最近在推动自动驾驶技术发展方面展示了显著的潜力(图1a)。最新研究提出了基于模仿学习的运动规划器,它们通过大规模驾驶演示学习驾驶策略,并使用基于学习的轨迹评分器从多个预测候选轨迹中选择最安全、最准确的轨迹来控制车辆。然而,尽管现有的规划器和评分器在预测准确性方面取得了显著进展,它们仍面临生成时间不一致轨迹的挑战,即连续的预测在时间上不稳定且不一致,以及选择不舒适轨迹的问题,这些轨迹表现为连续制动,导致车辆停顿或过大的转弯曲率。

本文提出了HE-Drive,这是首个以类人驾驶为核心的端到端自动驾驶系统,旨在解决上述两个问题,如图2所示。具体而言,本文发现由基于模仿学习的规划器生成的轨迹在时间一致性方面存在的问题主要源于两个因素:时间相关性和泛化能力。首先,这些规划器依赖当前帧过去几秒的信息来预测未来轨迹,忽略了连续预测之间的相关性。其次,它们的性能受到离线收集的专家轨迹质量的限制,导致在系统动态变化和分布外状态下,所学的策略缺乏应对未见场景的泛化能力。受扩散策略在机器人操作中取得成功的启发,该策略采用视觉条件的扩散模型来精确表示多模态分布以生成动作序列,本文提出了一种基于扩散的规划器,能够生成具有强时间一致性的多模态轨迹。

此外,导致预测轨迹不舒适的关键原因在于次优轨迹评分器无法实现持续评估,并且缺乏衡量轨迹舒适度的通用指标。近期研究表明,基于学习的评分器在闭环场景中不如基于规则的评分器,而后者由于依赖手工设计的后处理方式,泛化能力有限。其他研究者探索了使用视觉语言模型(VLMs)来感知周围代理的运动和交通表示,从而决定下一步行动。然而,直接将VLMs作为驾驶决策者面临解释性差和严重幻觉问题。为了解决这些问题,本文提出了一种新颖的轨迹评分器和通用的舒适度指标,结合了基于规则评分器的可解释性与VLMs的适应性,能够根据驾驶风格(例如,激进或保守)进行调整,从而实现持续评估。

综上所述,HE-Drive是一种新颖的以类人驾驶为核心的端到端自动驾驶系统。该系统利用稀疏感知技术,通过稀疏特征来检测、跟踪并映射驾驶场景,生成三维空间表示。这些表示作为条件输入到基于扩散的运动规划器中,该规划器由条件去噪扩散概率模型(DDPM)驱动。最后,基于视觉语言模型(如Llama 3.2V)引导的轨迹评分器从候选轨迹中选择最舒适的轨迹来控制车辆,确保类人风格的端到端驾驶体验。

相关工作回顾

端到端自动驾驶

端到端自动驾驶旨在直接从原始传感器生成规划轨迹。在该领域,根据其评估方法对进步进行了分类:开环和闭环系统。在开环系统中,UniAD提出了一个统一的框架,该框架将全栈驱动任务与查询统一接口集成在一起,以改善任务之间的交互。VAD提高了规划的安全性和效率,其在nuScenes数据集上的性能证明了这一点,而SparseDrive利用稀疏表示来减轻模块化系统中固有的信息丢失和错误传播,提高了任务性能和计算效率。对于闭环评估,VADv2通过概率规划推进了矢量化自动驾驶,使用多视图图像生成车辆控制的动作分布,在CARLA Town05基准中表现出色。

扩散模型用于轨迹生成

扩散模型最初在图像合成中备受赞誉,现已被巧妙地用于轨迹生成。基于Potential的扩散运动规划通过使用学习到的势函数来构建适用于杂乱环境的自适应运动规划,进一步增强了该领域,展示了该方法的可扩展性和可转移性。NoMaD和SkillDiffuser都提出了统一的框架,分别简化了面向目标的导航和基于技能的任务执行,其中NoMaD实现了更好的导航结果,SkillDiffusion实现了可解释的高级指令遵循。总之,扩散模型为基于模仿学习的端到端自动驾驶框架的轨迹规划提供了一种有前景的替代方案。由于固有的因果混淆,模仿学习模型可能会错误地将驾驶员的行为归因于错误的因果因素。相比之下,扩散模型可以通过学习场景特征和驾驶员动作在潜在空间中的联合分布,更好地捕捉潜在的因果关系,使模型能够正确地将真实原因与适当的动作相关联。

大模型用于轨迹评测

轨迹评分在自动驾驶决策中起着至关重要的作用。基于规则的方法提供了强有力的安全保证,但缺乏灵活性,而基于学习的方法在开环任务中表现良好,但在闭环场景中表现不佳。最近,DriveLM将VLM集成到端到端的驾驶系统中,通过感知、预测和规划问答对对对图结构推理进行建模。然而,大型模型的生成结果可能包含幻觉,需要进一步的策略来安全应用于自动驾驶。VLM的出现提出了一个问题:VLM能否根据轨迹评分器自适应地调整驾驶风格,同时确保舒适性?

HE-Drive方法详解

稀疏感知

HE Drive首先采用视觉编码器从输入的多视图相机图像中提取多视图视觉特征,表示为F。随后稀疏感知同时执行检测、跟踪和在线地图任务,为周围环境提供更高效、更紧凑的3D表示(见图2)。

64823183a8b466a4dfd30768ffda409a.png

基于扩散模型的运动规划

图2展示了我们基于扩散的运动规划器的整体流程。我们采用基于CNN的扩散策略作为基础,该策略由一个由1D卷积层、上采样层和FiLM(特征线性调制)层组成的条件U-Net组成。

运动规划器扩散策略:本文的方法(图7)采用了条件去噪扩散概率模型(DDPM),这是一个通过参数化马尔可夫链定义的生成模型,使用变分推理训练来模拟条件分布p(At | Ot)。DDPM由一个正向过程和一个反向过程组成,正向过程逐渐将高斯噪声添加到输入数据中,将其转换为纯噪声,反向过程迭代地对噪声数据进行去噪以恢复原始数据。

568ab8b6663c77488dcc6ec3a83fc8fc.png

大模型指导下的轨迹评分

为了从DDPM生成的多模态轨迹中选择最合适的路径,我们引入了VLMs制导轨迹评分器(VTS),如图3所示。据我们所知,VTS是第一个结合了可解释性和零样本驾驶推理能力的轨迹评分器。通过利用视觉语言模型(VLM),悉尼威立雅运输公司可以根据各种驾驶因素(如碰撞概率和舒适度)有效地评估轨迹,从而实现透明的决策和对新驾驶场景的适应性,而无需进行广泛的微调(即终身评估)。

8610c2589455a26388e5f2ff7939631d.png

实验结果

2e1f64e0bf7856752192c7ebcad2437e.png

图4:Llama 3.2V在nuScenes上的定性结果。本文展示了问题(Q)、上下文(C)和答案(A)。通过结合环视图像和文本数据,基于规则的评分器通过针对性的权重修改,实现了驾驶风格的微调。

9a2e0ad29ab0a4664a9b1b4ce7185b76.png

图5:(a) 和 (b) 展示了轨迹生成和评分过程,其中(a) 中的灰色轨迹表示为最优路径,基于最低成本标准被选中用于车辆控制。

0a3718e131ab542ddb3e29b05d9f679d.png

图6:(a) 显示了HE-Drive与两个基线模型在真实世界数据中舒适度指标的比较结果;(b) 显示了HE-Drive在闭环数据集OpenScene上的效率指标比较结果。

总结

本文介绍了HE-Drive,一种新颖的以类人驾驶为核心的端到端自动驾驶系统,旨在解决现有方法在实现时间一致性和乘客舒适度方面的局限性。HE-Drive集成了稀疏感知模块、基于扩散的运动规划器以及Llama 3.2V引导的轨迹评分系统。稀疏感知模块通过统一检测、跟踪和在线映射,实现了完全稀疏的场景表示。基于扩散的运动规划器在连续空间中生成多模态轨迹,确保时间一致性并模拟人类的决策过程。轨迹评分模块结合了基于规则的方法和Llama 3.2V,提升了系统的泛化能力、可解释性、稳定性和舒适度。广泛的实验表明,HE-Drive在开放环和闭环数据集上相较于最先进的方法表现出色,生成了具备更好时间一致性和乘客舒适度的类人轨迹。

参考

[1] HE-Drive: Human-Like End-to-End Driving with Vision Language Models

自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

b1b5c71c1ef7c44db66ae03139b39fd0.jpeg

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

7db98de78772358b218c176d67068e10.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

f0468114adfa9465a0aa47237cd3d4b8.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

25de8e3477e53b102027eb3bb6fc2003.jpeg

④【自动驾驶之心】全平台矩阵

8c313cde0d8b511336d370b2ca34b7b9.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值