自动驾驶LLM应用目前现状总结

最新推荐文章于 2025-05-12 07:30:31 发布

原创最新推荐文章于 2025-05-12 07:30:31 发布

· 1.5k 阅读

19 ·

版权

文章标签：

#自动驾驶 #人工智能 #机器学习 #支持向量机 #算法 #知识图谱

多模态大语言模型（LLM）在智驾这块的应用进行如下总结：

（1）DriveMLM

DriveMLM框架将大型语言模型（LLMs）的世界知识和推理能力整合到自动驾驶（AD）系统中，实现了在真实模拟器中的闭环驾驶，该框架有三个关键设计：

行为规划状态对齐(Behavioral Planning States Alignment)：这部分将LLM的语言决策输出与像Apollo [3]这样的成熟模块化AD系统的行为规划模块对齐。通过这种方式，LLM的输出可以轻松转换为车辆控制信号

MLLM规划器(MLLM Planner)多模态分词器将多视角图像、LiDAR、交通规则和用户需求等多样化输入转化为统一的token，MLLM解码器基于
统一token做出决策：由多模态分词器和 MLLM 解码器两个组件组成。这两个组件密切合作，处理各种输入，以准确确定驾驶决策并为这些决策提供解释。
高效数据收集策略：它为基于LLM的自动驾驶引入了一种量身定制的数据收集方法，确保了涵盖决策状态、决策解释和用户命令的全面数据集。

（2）DriveLM

DriveLM数据集开源链接：http://github.com/OpenDriveLab/DriveLM

DriveLM论文链接：http://arxiv.org/abs/2312.14150

赛事详情：http://opendrivelab.com/challenge2024

DriveLM-Agent基于网络规模数据视觉语言模型（VLMs）构建而成，并在多模态模型BLIP-2上进行了微调，采取了以前序节点问答作为输入问题上文的方式，来对提出的图结构进行编码（如下图所示），可应用于任何通用VLMs。此外，DriveLM-Agent结合了图提示方案，有效地将VLMs应用于端到端自动驾驶任务。

DriveLM包含全栈式的语言标注数据，并提供场景级别的全局驾驶目标描述，以及对应的帧级别的驾驶目标问询。该数据集基于nuScenes自动驾驶数据集和CARLA仿真模拟器构建，以场景级别的描述、关键帧级别的问答对（Description+Q&A）为组织形式，以问答对之间逻辑依赖关系构建的图结构作为核心。整个数据集分为训练集和验证集两部分，分别包含697个、150个场景。经由人工进行复杂标注和严格的质量检查，DriveLM包含了高质量标准、信息量丰富、逻辑关联充分的驾驶相关文本数据，将助力自动驾驶系统在复杂多变的交通环境中使用语言模态应对复杂任务。

（3）DriveVLM

这是理想联合清华大学提出来的一个视觉大模型，DriveVLM提出了一种将大视觉语言模型用于自动驾驶场景的方法，设计了场景描述、场景分析和层级规划地递进式思维链（CoT），分别对应于传统自动驾驶流程中的感知、规划和控制三个模块，期望借助大视觉语言模型的强大泛化和认知能力，实现比传统模块更优越的性能。

DriveVLM的模型pipeline，主要包括场景描述、场景分析、层级规划三个主要模块设计，下面将分别介绍：

场景描述：环境描述和关键物体识别。其中环境描述主要是对共性的驾驶环境的描述，比如天气和道路状况等；关键物体识别则是为了找出对于当前驾驶决策产生较大影响的关键物体。对于每个关键物体，DriveVLM会分别输出其语义类别c和对应的2D目标框b。
场景分析：在之前得到驾驶场景中的关键物体后，DriveVLM对关键物体特征和其对自车潜在的驾驶影响进行分析。在这里，作者将物体特征分为3个方面——静态属性（Cs）、运动状态（Cm）和特殊行为（Cp）。静态属性描述了物体固有的属性，比如道路标志中的标号或者标语，超出卡车车身长度的货物等，这些属性有助于自车确定一些潜在驾驶风险或对应的。运动状态（Cm），包括位置、方向和动作等，描述物体在一段时间内的运动状态，与传统轨迹预测模块类似。特殊行为（Cp）则是指某些专属于该物体做出的可能影响自车驾驶的特定行为或者手势等，比如交警指挥交通的手势，面前的人在使劲挥手示意等。在实际应用中，作者并没有强制DriveVLM对于所有关键物体都输出这三方面的信息，而是使模型学会应该自适应地输出某个物体在这三方面中可能包含的方面。
层级规划：DriveVLM提出了一种逐渐递进地层级式规划，依次推理对应自车未来驾驶决策的元动作、决策描述、轨迹点三种规划目标。

其中，

而DriveVLM-Dual通过有选择性地与传统感知和规划模块进行交互，一方面将匹配的物体感知3D信息引入VLM一侧实现更好地特征分析，另一方面VLM输出的轨迹点可选择地送入传统规划模块，实现实时且更精细地轨迹规划。提出了一套挖掘复杂和长尾驾驶场景的数据挖掘流程，并以此构建了多样化地SUP-AD数据集。该数据挖掘流程依次包括长尾/挑战性场景挖掘，人工筛选过滤，视频关键帧选取，场景标注，人工检验，实现了国内首个Orin部署的快慢双系统智驾大模型。

（4）LINGO-2

LINGO-2 是今年年初，自动驾驶公司Wayve宣布推出闭环驾驶模型LINGO-2，可将视觉、语言和动作联系起来，帮助解释和确定驾驶行为。LINGO-2为自动驾驶体验开辟全新的控制和定制维度，是首个在公共道路上进行测试的视觉语言动作模型（VLAM）。LINGO-2 由两个模块组成：Wayve 视觉模型和自回归语言模型。视觉模型将连续时间戳的相机图像处理成一系列标记。这些标记和其他条件变量（例如路线、当前速度和速度限制）被馈送到语言模型中。配备这些输入后，语言模型经过训练以预测驾驶轨迹和评论文本。然后，汽车的控制器执行行驶轨迹。

今年作为智驾行业内卷上天的一年，各大智驾公司都开始在上线端对端，大模型上车等举措，有的已经开始布局具身智能。由于大模型算法的参数量以及一些幻觉问题等，量产上车还是有的距离，但是大家都在不遗余力去推进这块，相信不久的未来就会面世，真正的AGI出现会让这些更上一个台阶。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述