澳门大学最新！CoT-Drive：开启自动驾驶思维链时代，突破复杂场景理解瓶颈~-CSDN博客

本文链接：https://blog.csdn.net/cv_autobot/article/details/146636340

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享澳门大学最新的工作—CoT-Drive！开启自动驾驶思维链时代。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『大模型』技术交流群

论文作者 | Haicheng Liao等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

感知、预测、规划三位一体的自动驾驶架构虽然在端到端的趋势下，逐渐退出历史舞台，但是对于每个环节的理解和提升，也可以推动更好的模型设计和发展。今天要介绍的这篇工作，就是要用新技术做更好的旧任务——如何运用LLMs和思维链的提示去做预测任务。

首先，不可否认的是，自动驾驶车辆在动态环境中对交通参与者进行精准运动预测，是下游决策制定和安全规划的基础，也是整个系统非常核心环节。这些环境要求运动预测模型能够有效理解上下文语义信息，包括各类参与者（如车辆、行人、骑行者）的运动行为、交通信号和道路状况等环境因素，以及这些实体之间复杂的交互关系。

论文链接：https://arxiv.org/pdf/2503.07234

现在主流的 data-driven 的深度学习模型通常关注常见且简单的场景，当面对与训练数据差异较大的真实环境时，尤其是一些 corner cases，性能会大幅下降。这引发了一个紧迫的问题：如何提升这些模型的适应性和鲁棒性？

答案是用 LLMs。一些近期的研究表明，LLMs不仅能提升常见交通场景下的运动预测性能，在需要深度理解上下文细节和多参与者交互的复杂场景中表现尤为突出。这些强大的泛化和推理能力，使LLMs成为解决该领域挑战的潜在方案。然而，在实车上部署是个大问题：

在线LLMs（如GPT-4 Turbo和Palm）虽能提供全面的场景理解并减轻边缘设备计算负担，但其效果受通信条件限制，在网络不稳定或高延迟的农村或欠发达地区可能因响应延迟危及乘客安全。
访问这些在线服务的高昂成本（如API费用和订阅费）进一步限制了其在AVs中的普及。更重要的是，数据传输过程中的数据泄露或恶意篡改风险可能严重威胁乘客安全和财产。
离线LLMs（如Vicuna和Flan-T5）虽能缓解隐私和延迟问题，但通常难以像在线LLMs那样灵活捕捉复杂交通场景的动态性和不确定性。此外，本地部署这些模型的高存储和计算需求对AVs中资源受限的边缘设备构成重大挑战。

这些多维度问题和挑战促使作者思考以下关键问题：如何开发一种能在边缘设备实时运行，同时保持全面场景理解和泛化能力的模型？

本研究提出CoT-Drive，一种新颖框架，通过知识蒸馏将LLMs的高级场景理解能力迁移至轻量级边缘模型。图1展示了作者提出的方法，其中思维链（CoT）提示技术增强了上下文语义分析能力，并引导语言模型（LMs）模拟LLMs的交通场景理解模式。作者采用“师生”知识蒸馏策略，以GPT-4 Turbo作为“教师”模型，将其场景理解能力迁移至轻量级“学生”模型（即LMs）。该学生模型集成到运动预测框架中，在提升场景解释和泛化能力的同时，避免了直接使用本地LLMs的高计算和存储开销。通过CoT提示技术对“教师”模型进行优化，使其推理过程与人类驾驶认知对齐，从而为AVs提供高效精准的预测。

本研究聚焦三个核心研究问题：

Q1：CoT-Drive如何在高速公路、密集城区和复杂交叉口等挑战性场景中实现高效精准的运动预测？
Q2：知识蒸馏如何有效将LLMs的高级场景理解能力迁移至轻量级模型，确保在计算受限的边缘设备上实现高效高精度预测？
Q3：能否利用CoT提示增强LLMs在复杂场景中的上下文理解，从而无需额外微调即可提升运动预测的准确性和可靠性？

方法论

架构概述

本研究的主要目标是在自动驾驶车辆感知范围内预测目标交通参与者的未来轨迹。在时间步，给定目标参与者（下标为0）及其周围交通参与者（下标1到）在时间间隔内的历史状态，任务是预测目标参与者在预测时间范围内的未来轨迹。历史状态包括目标参与者和周围参与者的二维位置坐标、航向角、速度、车道标识和加速度。CoT-Drive的整体架构如图3(a)所示，基于编码器-解码器范式，包含四个关键组件：语言引导编码器（Language-Instructed Encoder）、交互感知编码器（Interaction-aware Encoder）、跨模态编码器（Cross-modal Encoder） 和 解码器（Decoder）。

简而言之：

语言引导编码器 生成交通场景的语义描述（包括交互分析、风险评估和运动预测），提供全面场景理解，并提取为多模态特征；
交互感知编码器 同时提取局部空间特征；
跨模态编码器 整合特征和，生成跨模态特征；
解码器 利用预测多模态轨迹。

语言引导编码器

该编码器从复杂交通场景中提取丰富的语义特征，兼顾精度与效率。如图3所示，作者引入“教师-学生”知识蒸馏框架：

教师模型：采用预训练的GPT-4 Turbo作为“教师”，基于CoT提示生成交通场景的语义响应；
学生模型：轻量级边缘优化语言模型（edge LM）以为知识标签进行微调，生成语义标注；
多模态融合：通过DistilBERT框架和最大池化提取语义特征，同时通过Linear-ELU-LSTM网络处理历史状态生成时序特征，最终通过MLP融合生成多模态特征。

教师模型
作者提出零样本CoT提示方法，通过渐进式问题和提示引导GPT-4 Turbo 生成准确答案：

其中和分别为答案的第个token和长度。CoT推理进一步通过嵌入推理步骤增强提示：

具体定义：

其中为个推理步骤之一。提示模拟人类认知功能（如交互-风险评估-预测），引导GPT-4 Turbo逐步生成精确的语义答案。

学生模型
采用轻量级edge LM作为“学生”，通过最小化误差学习教师能力：

实验对比了GPT-Neo、Qwen 1.5、TinyLlama和Phi 1.5等学生模型。

多模态融合
语义标注和历史状态分别通过DistilBERT和LSTM网络处理，融合后生成。

交互感知编码器

采用基于Transformer的结构捕捉目标与周围参与者的空间交互。在每个时间步，历史状态通过MLP进行维度变换，再通过多头注意力机制和归一化函数建模空间动态，最终生成空间特征。

跨模态编码器

通过注意力机制动态调整多模态信息的权重：

其中为可学习矩阵。跨模态特征计算如下：

其中为Softmax函数，为投影通道维度。

解码器

采用双策略处理交通场景中的偶然不确定性（AU）和认知不确定性（EU）：

高斯混合模型（GMM） 对纵向（加速/减速/匀速）和横向（左转/右转/直行）机动动作建模，预测多模态轨迹：

其中为双变量高斯参数。

深度集成方法 使用个异构模型生成机动概率分布，通过平均预测和交叉熵量化EU：

最终通过MLP和LSTM输出轨迹参数：

训练与推理

训练
分两阶段：

阶段一：使用Highway-Text和Urban-Text数据集微调edge LMs，损失函数为：

阶段二：多任务学习策略，联合轨迹损失和机动损失：

其中机动损失：

轨迹损失（基于双变量高斯分布）：

推理

场景标注任务：将历史状态转换为文本输入，由微调后的edge LM生成标注；
运动预测任务：结合语义标注和历史状态生成多模态未来轨迹。推理时仅需轻量级LM生成场景描述，确保高效性。

实验阶段

实验设置

数据集

作者使用提出的Highway-Text和Urban-Text数据集评估轻量级LM的场景理解能力，并在五个真实世界数据集（NGSIM、HighD、MoCAD、ApolloScape和nuScenes）上测试CoT-Drive的运动预测性能。

评估指标

LM评估：采用BERT-Score衡量生成文本与真实标签的匹配度，包括精确率（）、召回率（）和F1分数（）：

运动预测评估：
- nuScenes：评估k条轨迹的最小平均位移误差（）、最小最终位移误差（）和2米阈值漏检率（）
- NGSIM/HighD/MoCAD：使用RMSE（均方根误差）
- ApolloScape：采用加权平均位移误差（WSADE）和最终位移误差（WSFDE）：

性能比较

表I-III展示了CoT-Drive在五个数据集上的对比结果：

ApolloScapeCoT-Drive在WSADE和WSFDE上分别超越最佳基线AI-TP和MSTG达5.1%和4.9%，证明其在复杂城市场景中的多Agent预测优势。

NGSIM
在高速密集场景中，CoT-Drive的5秒预测精度平均提升12.07%，长期预测（3-5秒）表现尤为突出。

HighD
凭借更高精度的轨迹数据，CoT-Drive长期预测精度提升28.7%，平均改进23.08%。

MoCAD
在右舵城市街道场景中，CoT-Drive全时段预测平均提升11.33%，展现强泛化能力。

nuScenes
作为无地图框架，CoT-Drive在、和上分别提升8.34%、5.16%和2.50%，证明其通过CoT提示学习复杂场景特征的能力。

模型性能与效率对比

为评估CoT-Drive的效率，作者在NGSIM和nuScenes数据集上测试了不同配置的推理速度。表IV显示，虽然Vicuna-13B版本精度最高（提升3.92%），但其推理时间增加12.7倍，难以满足实时性需求。表V进一步对比nuScenes数据集上12个智能体的预测表现：Llama2-7B和Vicuna-13B版本的推理速度分别比原始CoT-Drive慢12倍和20倍，但精度增益有限。这表明作者的方案在保持高效推理的同时显著提升了预测精度，有效解决了研究问题Q1。

消融实验

知识蒸馏策略的影响(Q2)
通过教师-学生框架，GPT-4 Turbo指导轻量级LMs（GPT-Neo/Qwen 1.5/TinyLlama/Phi 1.5）理解驾驶场景。表VI显示，这些模型在城市和高速场景中均表现出色（F1分数达0.94-0.97）。表VIII表明，移除知识蒸馏（模型A）会导致性能下降22.34%，验证了该策略对轻量模型继承LLMs高级推理能力的关键作用。

组件重要性分析

表VIII的消融实验表明：

移除交互感知编码器（模型B）导致性能下降15.93%
用MLP替代交叉注意力（模型C）降低9.47%
简化解码器（模型D）造成18.62%的性能损失
这验证了各模块对处理多智能体交互和场景不确定性的必要性。

CoT提示技术的影响(Q3)

表IX显示，移除CoT提示后所有LMs性能显著下降（如Phi-1.5的WSADE从1.0924m升至1.2076m）。这表明CoT引导的分步推理能有效增强场景语义理解，无需额外微调即可提升预测质量。

解码器结构分析

表X表明，采用6个子模型（MS-LSTM+自注意力+TCN组合）的集成策略最优，超过9个子模型配置。证明适度的模型复杂度平衡对处理交通不确定性至关重要。

讨论

尽管CoT-Drive在多项基准测试中展现出优越性能，作者仍然深入探讨其局限性和未来改进方向：

计算效率与模型轻量化的平衡

当前框架中，语言模型（如Qwen-1.5）的参数量（0.62B）虽已显著小于主流LLMs，但在极端资源受限的嵌入式设备（如自动驾驶ECU）上仍可能面临部署挑战。实验显示，当模型参数量从1.5B（Phi-1.5）降至0.13B（GPT-Neo）时，F1分数下降约8.3%（见表VI），这表明过度压缩模型规模会损害场景理解能力。未来研究可探索动态稀疏化或混合精度量化技术，在保持性能的同时进一步降低计算开销。

多模态输入的扩展性

当前系统仅处理结构化轨迹数据和文本语义标注，但真实驾驶场景包含：

视觉信号（交通标志、信号灯状态）
矢量高精地图（车道拓扑结构）
传感器融合数据（激光雷达点云）

特别是当目标车辆处于视觉遮挡场景时，现有纯轨迹-文本模态系统可能无法准确推断被遮挡行人的意图。一个潜在的解决方案是引入视觉语言模型（如BLIP-2）来解析摄像头画面，但需要解决多模态对齐时的实时性问题。

长尾场景的泛化能力

虽然CoT-Drive在nuScenes和ApolloScape等主流数据集上表现良好，但在两类极端场景中仍存在不足：

高度对抗性场景：如恶意别车、违规倒车等非常规驾驶行为
跨文化差异场景：左舵/右舵交通规则下的交互模式差异

这反映出当前知识蒸馏过程中，教师模型（GPT-4 Turbo）的驾驶常识主要来源于北美和欧洲的驾驶数据。作者建议通过对抗样本增强和区域化微调来强化模型韧性——例如针对亚洲城市特有的电动车密集场景构建专属训练集。

安全性与可解释性的权衡

虽然CoT提示技术通过分步推理提升了预测过程的可解释性（如图2的4步分析流程），但其决策逻辑仍存在两个隐患：

黑箱性：当模型产生错误预测时，难以追溯是场景理解错误还是轨迹生成错误
过度依赖语言先验：模型可能被误导性语义标注诱导（如将"激进变道"误标为"正常超车"）

未来工作可结合形式化验证方法，对关键场景（如变道决策）建立可验证的时空约束条件，确保预测结果符合物理规律和交通规则。

实时系统的工程化挑战

在实际车载部署中，作者测得以下典型时延（基于NVIDIA Orin平台）端到端时延在328ms左右。虽然满足多数场景的实时性要求（>10Hz），但在120km/h高速场景下，328ms时延意味着车辆已移动约11米。建议通过流水线并行和关键帧优先调度来优化时延敏感场景的响应速度。

这些讨论为后续研究指明了方向：在保持模型高效性的同时，通过多模态扩展、安全机制强化和系统工程优化，推动LLM增强型预测框架的实际落地。

结论

本研究提出CoT-Drive框架，首次将LLMs与链式思维提示技术引入自动驾驶运动预测领域。通过创新性的知识蒸馏策略，作者将GPT-4 Turbo的先进场景理解能力迁移到轻量级语言模型，在边缘设备上实现了实时高效的预测。该研究为LLMs在自动驾驶中的实际应用提供了新范式，通过平衡性能与效率，推动了边缘智能在实时运动预测中的发展。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com