大语言模型遇上自动驾驶:AsyncDriver如何巧妙解决推理瓶颈?

导读
这篇论文提出了AsyncDriver框架,致力于解决大语言模型在自动驾驶领域应用中的关键挑战。论文的主要创新点在于提出了大语言模型和实时规划器的异步推理机制,实现了在保持性能的同时显著降低计算开销。通过设计场景关联指令特征提取模块和自适应注入模块,该框架能够有效融合多模态信息并无缝集成到现有规划器中。在nuPlan具有挑战性的场景评测中,AsyncDriver展现出优异的闭环性能,实验结果表明即使在较大的推理间隔下仍能保持稳定表现。对于关注自动驾驶与大模型结合的研究者来说,这篇论文提供了一个实用的解决方案,展示了如何在实际应用中平衡性能和计算效率。

©️【深蓝AI】编译

论文标题:Asynchronous Large Language Model Enhanced Planner for Autonomous Driving

论文作者:Yuan Chen, Zi-han Ding, Ziqin Wang, Yan Wang, Lijun Zhang , Si Liu

论文地址:Asynchronous Large Language Model Enhanced Planner for Autonomous Driving | SpringerLink

1 研究背景

运动规划在自动驾驶领域扮演着关键角色,因其直接影响车辆的导航和安全性而备受关注。在评估自动驾驶规划器性能时,闭环仿真是一种特别重要的方法。在闭环仿真中,驾驶场景会根据规划器预测的轨迹动态发展,这就要求模型具备更强的预测准确性和偏差修正能力。

目前的实时学习型运动规划框架通常使用矢量化地图信息作为输入,并通过解码器预测轨迹。但作为纯数据驱动的方法,这类规划器在罕见或未见过的场景中表现容易显著下降。虽然也存在一些基于规则的策略,但手工制定规则往往无法完全覆盖复杂场景下的所有可能情况,导致驾驶策略要么过于保守,要么过于激进。此外,无论是学习型还是规则型规划框架,都面临着可控性较低的问题,这给动态环境下系统的安全性和可靠性带来了隐患。

近期,大型语言模型(如GPT-4和Llama2)在自动驾驶领域展现出巨大潜力。这些模型通过在大规模数据集上预训练,建立了理解交通规则和场景的坚实基础。因此,基于大语言模型的规划器在场景分析、推理和人机交互方面表现出优异性能,为提高运动规划的可解释性和可控性开辟了新途径。

然而,这些模型仍然面临几个具体挑战:首先,场景信息是通过语言描述的,可能会受到输入token长度的限制,难以全面准确地描述复杂场景细节;其次,通过语言输出进行预测时,要么需要将高层指令转换为控制信号(可能导致不准确),要么需要通过语言输出浮点数形式的轨迹点(这并不是大语言模型所擅长的);第三,现有框架主要将大语言模型作为核心决策实体,虽然这种策略在性能上有优势,但大语言模型固有的庞大参数量导致推理速度相比实时规划器明显降低,这给实际部署带来了实质性障碍。

如何克服这些挑战,使大语言模型能够更好地服务于自动驾驶运动规划,是本文要解决的核心问题。

2 相关研究工作

在自动驾驶运动规划方面,经典的模块化流程包含感知、预测和规划三个环节。在这个框架中,规划模块基于感知的输出预测未来轨迹,然后由控制系统执行。这种架构被Apollo等工业界框架广泛采用,与端到端方法相比,其优势在于可以通过模块间明确定义的数据接口,针对性地研究各个任务。

自动驾驶规划器主要可以分为基于规则和基于学习两类。基于规则的规划器依赖预定义的规则来确定车辆轨迹,比如维持安全跟车距离和遵守交通信号等。典型的如IDM(智能驾驶模型),它通过计算制动和停车距离来确保与前车保持安全距离。PDM(概率驾驶模型)在IDM基础上,通过选择得分最高的IDM方案作为最终轨迹,在2023年nuPlan挑战赛中取得了最佳成绩。但基于规则的规划器往往难以应对超出预定规则范围的复杂驾驶场景。

▲图1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值