Agent智驾新范式？DriveAgent：基于LLM的自动驾驶多模态融合决策框架~-CSDN博客

本文链接：https://blog.csdn.net/CV_Autobot/article/details/147913758

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享长安大学团队最新的工作！DriveAgent: 基于LLM的自动驾驶多模态融合决策框架！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

论文作者 | Xinmeng Hou等

编辑 | 自动驾驶之心

论文题目: DriveAgent: Multi-Agent Structured Reasoning with LLM and Multimodal Sensor Fusion for Autonomous Driving

论文链接：https://www.arxiv.org/pdf/2505.02123

写在前面 && 笔者理解

传统的自动驾驶方案在一些可解释性和上下文理解上，还是不如人类司机。即使是现在主流的端到端系统，也很难说整合了全部的异构传感器模态，比如：摄像头、激光雷达、IMU 和 GPS，尤其是在视觉模糊或者某一传感器失效的情况下。

然而，大型语言模型（LLM）和视觉语言模型（VLM）在跨领域推理方面有较强的能力，如何将 LLM 应用于驾驶场景中的多模态传感器融合，是一个有待探索的挑战。

最近已经有不少研究开始探索将 LLM 整合到自动驾驶任务中。例如，DriveLM 提出了围绕视觉输入的结构化推理，而 V2V-LLM 推进了车辆之间的多模态合作通信。此外，像 GenFollower 和 LMDrive 这样的框架则强调了指令跟随和类似人类行为的建模。同样，提示技术也通过改进推理和问题解决能力推动了 LLM 的发展。LaMPilot 和 KoMA 都利用了基于语言的提示智能体进行决策，而 TreeOT 和 ReActSR 则提出了通过提示 LLM 探索多种推理路径的方法，增强了推理和行动能力。然而，当前的方法主要集中在闭环规划或单一任务提示上，依赖于仅基于相对目标位置的简单视觉理解。因此，它们在视觉传感器不可靠的多样化驾驶场景中（例如摄像头未对准或在危险驾驶条件下）难以泛化。

鉴于上述限制，作者提出了 DriveAgent：一个模块化的、由 LLM 驱动的多智能体框架，用于在自动驾驶场景中对多模态传感器流进行推理。DriveAgent 通过分层的专用智能体整合了摄像头、激光雷达、GPS 和 IMU 数据，以协调的方式执行感知、推理和决策任务，如图1所示。作者的框架利用了 LLM 的结构化组合性和特定领域的传感器处理模块，以在典型和复杂的驾驶环境中提供清晰、可靠的响应。与以往仅关注端到端规划或视觉语言对齐的工作不同，DriveAgent 提供了一个通用架构，用于解释车辆行为、环境动态和跨多种传感器类型的因果事件。

本文的贡献包括：

多模态智能体系统：提出的多模态智能体系统能够在复杂的驾驶环境中实现连贯的端到端推理。
视觉语言模型微调策略：提出的微调 VLM 赋予了系统包括目标检测和交通解释在内的能力。
自我推理基准：基于数据分析、视觉推理和综合环境理解等任务评估自动驾驶性能。
三级驾驶数据集：收集的数据集涵盖了标准、典型和具有挑战性的自动驾驶场景，为全面的训练和评估提供了不同的挑战。

方法论

作者通过结构化推理过程解决四个关键任务。给定输入指令，模块按照提示产生响应。为了便于驾驶分析，作者设计了四个顺序模块，如图 2 所示：(1) 描述性分析，(2) 车辆推理，(3) 环境推理，(4) 响应生成。

在第一阶段描述性分析中，系统选择个发生重要事件的关键时间戳。作者将这些时间戳及其触发因素表示为，其中是第个时间戳，是触发其选择的因素。这组时间-因素对构成了所有后续分析的基础。

车辆推理阶段包括两个独立的传感器智能体和一个集成智能体。激光雷达智能体产生三元组，其中是时间的激光雷达描述。类似地，视觉智能体产生，其中是时间的视觉描述。然后，聚合智能体将每个激光雷达描述与对应的视觉描述进行比较，以诊断潜在的车辆异常。

与此同时，环境推理智能体利用和分析连续时间戳之间的周围环境变化。它识别出时间和之间的环境变化（产生变化），并将这些变化传递给因果分析智能体。

因果分析智能体揭示每个检测到的变化背后的机制，并标记出需要提高警惕的对象。最后，响应聚合智能体将来自的车辆诊断和来自的警惕标志进行整合，并将它们合成每个关键时间戳的最终响应。每个因此既包含车辆状况诊断（来自传感器比较的）以及相关的环境和因果信息（指示任何警惕性上下文的）。

M1：描述性分析

确定哪些信息对于准确的路线描述至关重要，是路线分析中的一个基本挑战。作者通过一个自引用过滤系统来解决这个问题，该系统基于车辆运动自动识别关键时间戳。过滤阈值由一个 LLM 智能体通过分析真实和模拟自动驾驶的典型路线描述来确定，这些路线描述是基于预定义路径的。一个单一智能体通过这种机制处理路线分类和阈值选择。作者根据速度和城市复杂性指标对驾驶路线进行分类。具体来说，作者定义函数，它输出一个路线类别和对应的阈值。形式化表示为（双冒号 "::" 表示这种对应关系）：

其中，表示高速、低复杂度的路线，表示中速、中等复杂度的路线，表示变速、高复杂度的路线。对于每个类别，由智能体函数计算得出：

该函数将标准运动学基线（角速度为 10°/s，线性加速度为 8 m/s²，偏航率为 10°/s）调整为特定的速度和城市复杂性。通过监测这些运动学信号（如转弯、加速/制动和方向变化），过滤智能体能够高效地识别出反映显著运动变化的关键时间戳。

M2：车辆推理

车辆推理模块包括三个智能体：一个处理视觉数据，一个处理激光雷达数据，以及一个分析智能体，用于综合两者以检测车辆异常。设计的推理流程如算法 1 所示。

视觉描述符：视觉智能体首先为摄像头视野中所有可检测对象分配唯一标签，每个对象分配一个索引。然后，它检查时间和的两个连续帧，记录每个对象的位置分别为和。通过比较这些位置，智能体测量每个对象在时间戳之间的移动情况，并且还可以得出所有对象的整体平均移动情况，分别记为。这种相对位置变化分析识别出哪些对象发生了移动以及移动了多少，从而在和之间为每个对象提供了一个运动摘要。

激光雷达描述符：激光雷达智能体从激光雷达点云中识别出的对象标签及其相对于车辆的位置开始。如果多个对象最初共享相同的标签，智能体会通过空间分离或其他显著特征来区分它们，以确保每个对象都被唯一识别。然后，它考虑连续的时间戳和，并从激光雷达数据中获取对象的位置和。位置的变化计算如下：

车辆状态推理：分析智能体将视觉和激光雷达描述符的输出结合起来，以诊断车辆状态和传感器完整性。首先，它过滤掉激光雷达数据中距离超过 100 米的任何对象。形式化表示为，它将注意力限制在集合中，其中是时间时对象的激光雷达位置（以米为单位）。这使得分析集中在附近的对象上，并且还可以对激光雷达传感器进行初步检查（例如，如果在预期范围内没有出现任何对象，则激光雷达可能存在故障或噪声）。对于每个对象，智能体然后将其激光雷达位置与对应的摄像头推断位置进行比较。设是时间时对象的摄像头估计位置。作者定义两个传感器之间的一致性度量为欧几里得距离：

如果某个对象的值较大，则表明激光雷达和摄像头之间存在差异，可能由于校准误差或感知噪声引起。智能体还监控是否许多对象同时出现较大的值，这将表明存在更广泛的传感器错位或摄像头问题（例如，模糊或校准漂移影响了多个对象的）。经过这些检查后，智能体编制了一个综合状态报告，诊断出激光雷达数据中检测到的任何问题，例如缺失/幽灵对象或范围错误；以及摄像头数据中的问题，例如对象定位不准确。

M3：环境推理

环境推理模块由两个协调智能体组成：一个专注于检测和描述环境变化，另一个致力于分析这些变化的原因。这两个智能体共同提供对每个观察到的环境变化的驱动因素的全面理解，如算法 2 所示。

环境变化检测
该智能体通过比较当前传感器读数与前一个时间戳的读数来识别环境变化。设和分别表示时间的视觉和激光雷达检测结果。通过分析与以及与的差异，该智能体检测出新出现的、消失的或显著移动的对象。检测到的变化根据类型（例如，静态与动态）和严重程度进行分类。对于每个变化，该智能体还评估跨传感器的一致性。假设某个对象同时被两种传感器检测到，设和分别表示摄像头和激光雷达感知到的同一对象的位置。传感器之间的一致性可以通过欧几里得距离来量化：

其中，较小的表示视觉和激光雷达对对象位置的感知一致，而较大的可能表明传感器错位、校准问题，或者实际环境中发生了某种突发变化，导致一个传感器的检测结果与另一个传感器不同。

因果分析
该智能体对上述识别出的变化进行深入分析，以推断其背后的原因。它首先从之前的推理阶段或原始传感器数据中检索每个相关对象的状态，记时间时对象的状态为。然后，它通过计算时间间隔内对象状态的变化来分析每个对象的运动模式，并对发生显著变化的对象进行标记：

对于每个标记的变化，该智能体通过分析时间模式（例如，变化是突然的还是渐进的）、环境线索（例如，风或碰撞）以及周围上下文（例如，附近对象的运动）来推断可能的原因。它将每个变化分类为自身运动（例如，车辆或行人）或外部影响（例如，被外力移动），并利用运动特征和行为模式等线索进行判断。最终，该智能体生成一份因果报告，总结变化、推断的起源以及置信度水平，为下游的决策提供可解释的推理支持。

M4：响应生成

该模块将前面智能体的输出进行综合，生成优先级排序的响应。每个洞察都会与一个类别（例如，安全、效率）配对，形成集合。评分函数用于评估紧急性，最高优先级的问题可以通过以下公式确定：

然后，智能体从候选响应集中选择最佳响应，通过最大化效用函数实现：

最终响应为：

其中表示除最高优先级问题外的其他考虑因素。这种结构化的输出可以整合最高优先级问题、建议的行动以及剩余的考虑因素，从而支持透明且可解释的决策制定。

实验

数据集

由于缺乏用于评估智能体对驾驶环境理解的公开数据集，作者引入了一个从真实世界场景中的自动驾驶车辆收集的新数据集。如图 3 所示，车辆配备了多种传感器和导航系统。所有传感器数据都进行了时间同步，以确保多模态观测的一致性。

任务和评估指标

作者定义了三个主要任务：
(1) 目标和类别检测，
(2) 车辆推理（激光雷达和视觉理解），
(3) 环境推理。

每个任务都通过其对场景理解、决策制定和系统鲁棒性的贡献进行验。

对于目标识别任务，作者考虑了七个关键类别：四轮车辆（道路上的主要机动车参与者）、非四轮车辆（例如自行车和滑板车，由于覆盖范围较小，通常风险更高）、行人（易受伤害的道路使用者，通常优先考虑）、标志（官方交通指示和规定）、固定装置（永久结构、障碍物或建筑物）、植物（可能遮挡视线或标记边界的植被）以及监控设备（支持交通监督的电子显示屏或摄像头）。该任务在数据集 R2 和 R3 上进行训练，并在 R1 上进行评估，使用精确率、召回率和 F1 分数作为评估指标；其重要性在于确保对交通安全至关重要的对象进行准确分类。

车辆推理任务包括两个任务：一个激光雷达理解任务，通过将模型的输出与 R2 中的真实标签进行比较来评估，以及一个视觉推理任务，在 R2 和 R3 上进行评估，其中错位的相机视图作为干扰项。这些评估衡量了感知精度的真实提升，并防止了由于随机猜测而获得的虚假收益。

最后，环境推理任务测试系统区分静止物体和独立运动物体（如行人）的能力，通过在动态交通中更好地提高情境意识、避免碰撞和安全导航来验证改进。

推理指令

图 4 概述了结构化注释指南，定义了高质量响应的预期格式和内容。这些指南强调了三个关键方面：(1) 准确识别车辆和其他动态交通元素（例如自行车、公交车），(2) 突出显示相关的静态道路基础设施，如车道标记、交通标志和信号，(3) 确保描述客观、简洁且不含主观或无关内容。作者从每个输出中提取五个场景组件：树木、建筑物、车辆、行人和标志。这些类别因其与道路场景理解的相关性及其在标准自动驾驶数据集中的普遍性而被选中。

推理设置：推理实验遵循上述的多阶段推理方法，部署的 DriveAgent 完成四个顺序模块：描述性分析、车辆推理、环境推理和响应生成。对于每个阶段，DriveAgent 根据前一步的中间输入生成响应，每个输入案例总共进行四次逐步生成。评估在两个关键点进行：(1) 评估智能体车辆诊断推理的准确性，(2) 评估其环境和因果推理的准确性。

结果与分析

目标与类别检测性能

表 III 显示了在训练过程中采用结构化注释指南以实现更准确的目标识别时所获得的显著性能提升。DriveAgent 中的 VLM 模型在所有关键指标上都实现了显著提升——精确率达到了 89.96%，F1 分数达到了 71.62%，超越了表中其他模型。

图 5 显示，与人类标注者相比，DriveAgent 是唯一能够持续检测到监控设备的模型，而其他基线模型大多遗漏了这些设备，因为头顶的监控设备不如地面物体显眼。这一改进凸显了精确、一致的标注对于训练目标检测系统的重要性。通过消除歧义并确保边界框和类别标签的统一标准，新的标注使模型能够更有效地学习目标边界和区分。因此，DriveAgent 在定位和识别目标方面展现出更高的准确性，验证了高质量、结构化标注实践对于实现稳健目标识别性能的关键作用。

推理性能

车辆推理

对于激光雷达推理，Zero-Shot 方法在各条路线上的准确率介于 47.50% 到 65.05% 之间，为检测传感器错位建立了一个基线。单独使用 CoT 会导致显著的性能下降，表明基本的顺序推理难以应对细微的错误。添加 Self-Refine 显著提高了准确率，在 R2 上达到 72.63%，在 R2-right 上达到 63.89%。然而，DriveAgent 实现了强大且稳定的性能，尤其是在 R2-left 上（69.90%），显示出可靠的激光雷达错位检测能力。

对于视觉推理，检测错位的摄像头更具挑战性。Zero-Shot 和 CoT 在左、右视图上的准确率非常低。相比之下，DriveAgent 实现了显著的提升，包括在 R2 上达到 96.84% 的准确率，并且在左、右变体上也有明显改进（分别为 58.25% 和 71.30%），证实了针对视觉传感器推理进行模态特定调整的重要性。

环境推理

环境推理性能的评估基于智能体在比较两个选定时间戳时检测独立运动物体的能力。Zero-Shot 的性能较低，表明在没有额外推理线索的情况下，智能体难以区分时间上的物体差异。CoT 方法显著提高了性能，但 CoT + Self-Refine 策略的结果参差不齐，表明细化过程可能并不总是与 CoT 的固有顺序推理有效协同。值得注意的是，DriveAgent 模型超越了所有基线模型，获得了最高的准确率。这些结果强调了为整合时间和空间推理采用专门的、调整良好的方法的重要性，这对于在动态环境中准确识别独立运动物体至关重要。

结论

在本文中，作者提出了 DriveAgent，这是一个模块化的、由大型语言模型（LLM）引导的多智能体框架，用于自动驾驶中的结构化推理。通过将多模态传感器输入——包括摄像头、激光雷达、GPS 和 IMU——整合到一个由感知和推理智能体组成的层级结构中

在真实世界多传感器数据集上的实验表明，DriveAgent 不仅在准确性和稳定性方面超越了基线提示方法，还提供了显著的可解释性和模块化扩展性优势。DriveAgent 为通用化、可解释且传感器感知的自主性提供了一条前进的道路。该方法将语言建模的基础进展与实时感知和控制的需求相结合，为未来的驾驶系统奠定了基础，这些系统不仅具有反应性，还具备反思性意识。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com