自动驾驶视觉大语言模型思维链层层拆解

最新推荐文章于 2025-05-17 15:47:28 发布

自动驾驶之心

最新推荐文章于 2025-05-17 15:47:28 发布

阅读量30

点赞数

文章标签：自动驾驶语言模型人工智能机器学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247664600&idx=2&sn=c685f1fe5c7b20a0362ff56cf0add985&chksm=cf2db2b3642d77e5ec62208e152898d7aa68b27a666a7df171b623249ced77ba84ad00753e22&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『大语言模型』技术交流群

作者 | 直观解

编辑 | 自动驾驶之心

一、思维链在自动驾驶技术中的兴起

近期思维链CoT的研究热度持续上升，成为车企辅助驾驶赛道的新热点。
多模态CoT（如DriveVLM-Dual）在NuScenes测试集上mAP提升19%
端到端时延优化至300ms内（地平线征程6芯片支持）

优度的突破带来了研究的热度和企业的布局。各大平台讨论量急剧上升。

平台	相关话题帖数	热搜关键词
知乎	4.2k+	#CoT自动驾驶解释性#、#VLM泛化#
Reddit，SelfDriving Cars	680+	"How CoT beats HD maps?"
微信指数	峰值158万	"思维链自动驾驶"搜索量周环比+33%

还有多家企业基于思维链技术展开研究布局。

公司/机构	动作	技术亮点
理想汽车	发布MindVLA 2.0	支持实时CoT推理（延迟<200ms）
特斯拉	申请"Vision Chain"专利	融合Dojo超算与CoT场景生成
毫末智行	与NVIDIA合作DriveGPT-X	千亿参数+车端蒸馏CoT模型

在专利和融资上也出现上升趋势，根据报道统计：

融资事件：2025年Q1自动驾驶CoT相关初创公司融资超$3.7亿（同比+215%）
专利趋势：中国CoT+VLM专利2025年H1达1,892件（占全球54%）

二、什么是思维链

思维链（Chain of Thought, CoT）是一种提示工程技术，通过引导大语言模型（LLM）将复杂任务分解为多步骤推理过程，从而提升其逻辑推理和问题解决能力。其核心思想是向模型展示包含中间推理步骤的少量示例（Few-shot），使模型在生成答案时能模仿人类逐步思考的模式，例如先分析问题、拆分步骤、逐步推导，最终得出答案。这种方法显著提升了模型在数学计算、关系推理等复杂任务中的表现。

图思维链CoT提高回答准确率示例，图片来自网络

CoT的典型应用包括零样本思维链（直接要求模型展示推理）和少样本思维链（提供带步骤的示例），其优势在于通过显式结构化推理减少模型错误，同时增强结果的可解释性。研究表明，CoT技术是LLM“智能涌现”的关键驱动力之一，尤其在参数规模超过100B的模型中效果更显著。

图典型的CoT工作流程，图片来自网络

定义与原理

定义：CoT是一种结构化的问题解决方法，通过生成中间推理步骤（如“问题→步骤1→步骤2→…→答案”）引导模型完成复杂任务。
核心原理：化繁为简：将复杂任务拆解为可管理的子问题。
逐步推理：模拟人类“分步思考”的认知策略。

技术特点

增强模型能力：提升逻辑推理、数学计算等复杂任务的性能。弥补传统提示方法直接输出答案的局限性。
可解释性：通过展示中间步骤，使模型决策过程更透明。

应用场景

典型任务：

任务类型	示例
数学应用题	多步骤算术运算
逻辑推理题	谜题或因果推断
常识推理	需要背景知识的问答

如果还觉得以上描述太抽象，我们一张图直观解释：

图一个典型的思维链，图片来自AIOS论文

上图就是让LLM查询某一航班到达目的地的天气，经常出差的人再熟悉不过了。
这个问题需要分解，指定航班什么时候到达哪里？到达当天的天气预报。
这种分而治之的思考方式，不仅大大提高回答准确率，而且这种分步走的方式还可以让提问实现“中断-调度-恢复”功能。这样可以让多个提问代理共用一个LLM模型，而不是某一个提问代理长期霸占LLM；和多任务操作系统让多个任务通过中断-保存上下文-恢复的方式轮流使用CPU是一样的。中断的前提是任务可分，这也是为什么这张图来自AI操作系统论文的原因。

三、CoT思维链在视觉大模型的原理和应用

从上面描述可知，CoT是一个语言大模型的概念，以视觉输入为主的自动驾驶VLM与CoT该如何结合？

主要是靠多模态输入对齐来融合视觉-语言特征。

具体通过视觉编码器（如BEV、Transformer）将摄像头/LiDAR数据与文本指令映射到统一语义空间，形成可推理的联合表征。

示例：DriveVLM使用Qwen-VL模型将图像序列转换为场景描述文本，作为CoT推理的输入。

所谓对齐是把视觉信息映射到语义空间，从而把视觉信息和语义信息统一到语义空间，先喂给CoT推理分解为子问题，再把子问题喂给语言大模型处理，并返回最终答案。

所谓对齐，实际是用一个小的神经网络（称为projector），比如多层感知机，把视觉数据（一个向量空间）映射到语义空间（另外一个向量空间）。Projector是可以训练的，让数据通过训练来“塑造”最佳的Projector权重参数。

除了对齐外，分层推理是另外一种常见的结合视觉和思维链的方式。这种方式更加简单直观，就是先把视觉场景转换为自然语言描述（典型的图生文或者视频生文），再把自然语言描述给思维链处理。

一个典型的CoT模块分层推理如下：

阶段	功能	输出示例
图生文场景描述	生成自然语言的环境描述（如天气、障碍物）	"左前方有行人正在过马路"
CoT推理链条场景分析	推理潜在风险与优先级	"行人可能突然加速，需减速"
输出规划	生成元动作序列（转向/制动等）	"减速至20km/h，向右微调方向"

CoT在技术实现的关键如下：

动态思维链生成

自回归推理：模型基于当前状态迭代生成下一步动作，如百度X-Driver通过CoT链式预测轨迹点。
知识增强：引入驾驶常识库（如交通规则）约束推理逻辑，避免不合理决策。

可解释性保障

中间步骤可视化：例如理想汽车的VLA模型会输出“检测到施工锥桶→预计影响车道→规划绕行路径”的完整推理链。
失败归因：通过CoT步骤回溯错误源头（如误识别停车标志）。

MoE式的答案生成：还有一些思维链通过类似于混合专家模型MoE的投票机制来消除答案的不一致性，比如下图：

图类似于MoE的CoT架构，图片来自网络

最关键的问题，是CoT如何合适地把大问题分解为一系列小问题。这一点我们在下一节单独详述。

四、自动驾驶场景下思维链的问题拆分

在自动驾驶场景下，Chain-of-Thought（CoT）的问题拆分和评价需要紧密结合多模态感知、场景理解和决策规划等关键环节。

以下给出一个Cot 思维链在自动驾驶中的详细实例，车辆通过十字路口场景。

感知阶段

问题拆分：将环境感知拆解为信号灯状态识别、行人信息捕捉、周边车辆动态监测三个子问题。

摄像头通过图像识别算法，定位路口信号灯区域，判断其颜色为黄色；
利用人体姿态检测模型，锁定路口中间行人的位置，同时分析其肢体动作，判断正处于行进状态；
结合雷达测距与摄像头视觉信息，获取右侧车辆的实时位置与速度，通过前轮转向角度、转向灯亮起等细节，初步判定有变道意图。

分析阶段

问题拆分：分别分析信号灯、行人、变道车辆对当前行驶的影响，并评估综合风险。

信号灯影响：黄灯剩余时间未知，根据常规交通灯周期推算，快速变红概率高，若强行通过可能违反交通规则；
行人干扰：行人位于车辆行驶路径上，若保持原速行驶，到达路口时可能与行人发生碰撞；
变道风险：右侧车辆变道会侵占本车道空间，且两车速度差与相对位置存在碰撞可能；

综合风险：三者叠加导致当前行驶存在严重安全隐患，需优先消除风险。

推理阶段

问题拆分：针对每个风险点，结合规则与车辆性能推理对应决策，并整合为最终方案。

信号灯应对：依据 “黄灯无法安全通过需停车” 的交通规则，车辆需做好减速准备；
行人保护：为确保行人安全，必须降低车速，直至行人完全离开行驶路径；
变道避让：考虑到车辆制动距离与变道车辆的动态，减速或停车避让可避免碰撞；

最终决策：综合以上因素，同时满足交通规则与安全需求的最优解是立即减速停车。

决策执行阶段

问题拆分：将停车决策拆解为制动力度控制、停车位置选择、后续动作规划三个步骤。

系统根据当前车速与距离，计算合适的制动压力，向制动系统发送指令，平稳降低车速；
选择距离行人与变道车辆安全距离外的位置，完全停车等待；
持续监测行人与变道车辆动态，待行人通过、右侧车辆完成变道，且信号灯状态允许时，再规划启动与行驶路径。

通过 Cot 思维链对复杂场景的层层拆分与逻辑推导，自动驾驶系统能够有条不紊地处理多源信息，在保障安全的前提下做出合理决策，显著提升应对复杂路况的能力。

图 CoT在自动驾驶场景中的问题分解示意图

思维链问题分解虽好，但是如何分解才是关键。

在原始论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Model》中，一句话暗含了CoT思维链的核心要点和痛点。“chain of thought, in principle, allows models to decompose multi-step problems into intermediate steps, which means that additional computation can be allocated to problems that require more reasoning steps.”

“in principle”，“原则上”允许推理模型把多步问题分解为中间步骤，但是这个原则上具体该怎么做，才是CoT的核心问题。

具体的实现方式有如下三种：

方法	描述	适用场景
显式CoT提示	人工设计中间步骤模板，引导模型逐步输出	少样本学习、数学推理
隐式CoT（知识蒸馏）	通过训练让模型自动学习中间推理步骤	大规模预训练模型
动态规划（planning）	任务分解与资源分配由模型自主决策	复杂多模态任务

所谓显式CoT提示，主要是人为规则，对于特定场景，已经人为预先给出了子问题列表。因此本文不多着墨。

而动态规划planning模式，才是CoT的终极形态。

planning模式下，一个典型的实例HuggingGPT介绍自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》一文。HuggingGPT 以大型语言模型（如 ChatGPT）作为核心控制中枢，搭配各类专家模型作为具体执行者。其完整工作流程可划分为四个关键阶段：首先是任务规划环节，核心大语言模型对用户输入的请求进行拆解分析，将其转化为清晰的任务清单，并梳理出各任务间的执行先后顺序及所需资源依赖关系；进入模型选择阶段后，大语言模型会基于 Hugging Face 平台上专家模型的功能特性说明，为每项任务精准匹配最合适的执行模型；随后在任务执行阶段，分布于混合端点的专家模型各司其职，完成分配给自己的具体任务；最后响应生成阶段，核心大语言模型汇总整合各专家模型的推理成果，同时生成任务执行的工作流日志摘要，最终形成完整、准确的答案反馈给用户。

图带有预置模版槽位（图中的大括号）的HuggingGPT，自动规划分解子问题为主，认为模版为辅，图片来自论文《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》

HuggingGPT的工作流程如下：

任务规划（Task Planning）:

a. 当HuggingGPT接收到用户请求时，首先使用ChatGPT（一个大型语言模型）来分析请求，理解用户的意图，并根据请求将任务分解成一系列可解决的子任务。请注意，是使用LLM来分解子任务。
b. 在这个阶段，ChatGPT需要确定子任务的依赖关系和执行顺序，以建立它们之间的连接。为了提高ChatGPT在任务规划中的效果，HuggingGPT采用了基于规范的指令和基于演示的解析，这相当于是用人为模版来支持辅助LLM分解子任务。
c. 基于规范的指令要求ChatGPT按照特定的规范（例如JSON格式）来表示和解析任务。
d. 基于演示的解析则通过包含用户请求及其对应输出的多个演示来帮助ChatGPT更好地理解任务规划的意图和标准，以及任务之间的逻辑联系。

模型选择（Model Selection）:

a. 在任务规划之后，HuggingGPT会根据解析出的任务列表来匹配任务和模型，即选择每个任务中最合适的模型。
b. 为了实现这一点，HuggingGPT使用模型描述作为连接每个模型的语言接口。具体来说，它首先从机器学习社区（如Hugging Face）收集专家模型的描述，然后使用动态的基于上下文的任务-模型分配机制来选择模型。
c. 为了减少提示中的token使用，HuggingGPT首先根据任务类型过滤模型，并基于Hugging Face上的下载次数对选定的模型进行排名，选择前K个模型作为候选。

任务执行（Task Execution）：

一旦为某个解析任务分配了特定模型，下一步就是执行该任务（即进行模型推理）。在这一阶段，HuggingGPT 会自动将任务参数输入到模型中，执行这些模型以获得推理结果，然后将结果反馈给 LLM。

响应生成（Response Generation）：

在所有任务执行完成后，HuggingGPT 需要生成最终响应。HuggingGPT 在这一阶段整合前三阶段（任务规划、模型选择和任务执行）的所有信息，包括计划的任务列表、任务的模型选择和模型的推理结果，生成简洁的总结。

四、总结

尽管Planning（规划）来分解子问题子任务，是CoT的终极形态，非常强大，但用LLM来分解也导致了结果的不可预测性，源自LLM本身的黑盒性。相较于可靠地使用人为预置子任务子问题，或者预置分解规则，“Planning”是一个相对较难预测的技术。

因此，思维链提示目前还存在一些不足，列出如下：

目前所生成的思路链在事实准确性方面存在不足，后续需通过优化迭代来增强其事实可靠性。
思路链提示技术的有效应用高度依赖大规模语言模型，这使得实际使用过程中产生较高的成本支出（训练成本，维护成本等）。
思路链的标注工作耗费大量人力与资源，难以实现大规模推广应用，因此探索自动生成思路链的方法成为重要方向。
思路链提示示例的效果受提示工程的影响显著，输出结果波动较大，亟待发掘更为稳定、可靠的提示策略。
在处理简单任务时，思路链提示带来的效果提升不够明显，有必要拓展其应用领域，以充分发挥该技术的潜力。

这些CoT的不足在应用到自动驾驶VLA模型时，自然也延续了下来。这一点决定了自动驾驶中CoT的应用，必然经历从人为规则分解任务到机器学习分解子任务，最后竞赛机器学习分解子任务的优度。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com