从看见到理解:自动驾驶迈入“思维链”时代~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

自从思维链在大语言领域爆火以来,研究人员也开始构思VLM思维链如何实现?尤其是自动驾驶领域,实现智能体从“看见”到“理解”是思维链首要解决的问题!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

文章作者 | Leo

编辑 | 自动驾驶之心

1、导言

在自动驾驶的技术发展中,一个核心挑战是让自动驾驶系统不仅可以“看见”(感知)环境,更能“理解”环境。尽管现有的自驾技术在感知、决策和控制等领域取得了显著进展,如何在复杂多变的环境中精准地感知、预测并做出决策,依然是一个亟待攻克的难题。在高风险的驾驶场景下,仅仅依靠传统的感知数据处理方法,已难以应对动态变化的不确定性。而环境理解和思维链推理技术的引入,为自动驾驶带来了突破性的思维方式,开启了从“感知”、“理解”、“推理”再到“决策”的进化之路。

环境空间理解并非仅对静态物体的简单识别与标记,更是一种对环境中物体关系、动态变化以及潜在风险的深层理解。这项技术依赖多模态数据融合,包括摄像头、激光雷达等主流传感器,它们收集到的数据经过高效的融合与推理,为系统构建全方位、立体化的驾驶场景认知。在交通状况复杂多变的道路上,自动驾驶所面临的挑战远不止于“我看到了什么”。更重要的是,它需要迅速理解“我看到的每一个物体与“我”之间究竟存在怎样的关系”,并依据这些关键信息做出实时反应。

然而,环境空间理解只是实现自驾的起点,思维链推理技术则为环境感知、理解提供了灵活的决策框架。思维链推理不仅模拟了人类思考和解决问题时的多步骤推理过程,将复杂的思考过程分解为一系列逻辑连贯的步骤,还能基于场景的动态变化逐步推断出行动路线。这种逐步推理的能力,是传统感知算法所无法提供的。自动驾驶系统借助思维链推理将具备“分步推理”能力,从复杂的环境感知信息中理解关键信息并形成决策链条,最终为决策框架提供更精准、更有逻辑性的输入。

本文将分析环境感知、理解与思维链推理在自动驾驶中的重要工作,探讨其在提升自动驾驶水平中的意义和作用,并展望未来的发展方向。通过探索这些前沿领域,可以期待自驾系统在未来实现更高层次的环境认知能力。

2、环境空间感知

2.1 传统环境感知技术

自动驾驶系统需要通过传感器获取周围的环境感知数据并进行处理,这些传感器包括摄像头、激光雷达(LiDAR)、毫米波雷达、惯性测量单元(IMU)以及GPS等。传统的环境感知技术主要依赖主流环境感知传感器(如摄像头、激光雷达)的数据,其中摄像头图像数据:  ,其中   和  分别表示图像的高度和宽度,  是通道数,一般为 (表示 )。 激光雷达点云数据  ,其中 表示点云数据中点的数量,  则表示点的空间坐标 。可以通过图像处理或点云处理技术,完成目标检测、目标追踪、语义分割等感知任务,目标检测任务可表示为:

即从图像中检测并识别目标,生成检测框坐标、尺寸和类别信息。目标追踪可表示为:

其中   表示在时刻   的目标状态(如位置和速度),  表示控制输入(如转向角度、加速度),  为过程噪声。语义分割任务可表示为:

返回图像/激光雷达的分割结果,即每个像素点/激光点的类别,如下图所示。

由于单一传感器均有其独特的优势及劣势(例如,摄像头能够提供高分辨率的图像数据,但在复杂天气(如雨、雾)和光照变化剧烈等情况下容易受到影响)。自动驾驶系统逐渐采用多模态数据融合技术,通过前融合、特征融合、后融合等多模态数据融合技术获得更为全面和准确的环境感知结果[1, 2]

2.2  新的环境感知表示

随着自动驾驶技术的发展,环境感知的表示形式不断革新。鸟瞰图[3](Bird's Eye View, BEV)和占用网格[4](Occupancy, Occ)是两种新的环境感知表示形式,它们被广泛应用于感知系统中。相较于传统环境感知技术,BEV提供了直观的俯视图视角,有助于清晰理解物体的空间布局,同时可作为后续决策、规划和控制任务的统一表示。而Occ可视为BEV视角的三维空间的扩展,可表示的空间占用状态与类别。

BEV表示能够将三维物体的位置、大小和形状转换为二维平面,帮助自动驾驶系统更好地进行场景理解、物体检测、跟踪等任务。BEV表示的关键是将图像数据或点云数据通过特征提取、坐标变换后的BEV Pooling,将其从三维空间投影到二维平面上:

其中, 代表变换后的BEV图像,其中   表示图像的尺寸,  是通道数。这个过程通常使用鸟瞰图变换和投影矩阵来实现。

Occ则能够更直观地判断出每个区域是否被物体占据,其通常使用网格表示环境空间,将每个网格单元标记为占据或未占据:

其中  代表网格位置的占据状态,值为1表示该位置被物体占据,值为0则表示该位置为空。更进一步地,可以将被占据的网格细分为具体的某一类,并将统一类别的网格做相同着色处理。BEV和Occ感知的表示形式虽然和传统感知视角不同,但其主要完成的依然是环境感知任务。如下图所示,左侧为BEV感知表示,右侧为Occ感知表示。

3、环境空间理解

在传统的环境感知技术中,我们主要关注了通过多模态传感器获取的感知信息,而随着自驾技术的不断迭代,针对复杂环境进行深层次理解的需求日益增强。环境理解旨在通过深入分析和推理来提升自动驾驶系统的决策能力。

3.1 基于视觉问答的场景理解

NuSceneQA[5]是Qian等人于2023年提出的首个针对自动驾驶场景设计的视觉问答(VQA)基准,旨推动自动驾驶领域中环境理解任务的研究与评估。传统的VQA任务主要依赖于静态图像数据,然而自动驾驶场景具有以下独特挑战:

  • 多模态数据:自动驾驶的环境感知结果包括图像和点云数据。而现有的VQA仅基于单一模态(如图像)。

  • 多帧时序信息:自动驾驶场景的数据是户外、连续实时采集,涉及时间序列信息。而现有VQA数据来自室内或静态场景。

  • 动、静态并存:自动驾驶场景中的前景动态物体与背景静态环境共存,这对场景理解、推理和行为预测具有关键作用。 为解决上述问题,Qian等人在NuScene数据集的基础上构建了NuScene-QA,其构建流程如下图所示。

其中包含34,149个场景,460,000条问答对,覆盖了丰富的问题类型,包括:存在性问题(某物是否存在)、计数问题(某类目标的数量)、属性问题(目标的颜色、状态等)、比较问题(目标大小、距离等)、状态问题(目标是否运动等)。所有问答对基于从 3D 检测标注生成的场景图,并结合模板设计 + 程序化生成策略构建,保证了问答的系统性与规模。此外,问题被划分为0-hop(无需推理)与1-hop(需要空间推理)两大类,以测试模型是否具备空间关系建模与场景推理能力。一些问答示例如下图所示,第一行为“存在性问题“示例,第二行为“状态问题”示例。

实验结果表明现有技术尚难应对复杂街景理解任务。NuScenes-QA 是自动驾驶领域首个大规模、多模态、结构化的视觉问答基准,填补了现有研究中环境理解与问答评估的空白。它不仅提出了一套自动驾驶环境空间理解的方案,也为后续的多模态推理模型研究奠定了数据与评估基础。该工作为实现“具备理解能力的自动驾驶系统”迈出了关键一步。

此外,Marcu等人同样构建了一个视觉问答(VQA)基准 - LingoQA[6],其中包含28,000个视频场景和419,000个问答对,涵盖了场景描述、行为预测、注意力分析等多种理解任务,如下图所示。

同时引入了Lingo-Judge,可高效地评估答案的真实性。在LingoQA基准上,通过对模型架构和训练策略的深入分析,发现微调注意力层、使用多帧视频输入和延迟融合策略能显著提升性能。这些发现为未来视觉语言模型的优化提供了宝贵的经验参考。LingoQA为自动驾驶领域的VQA任务提供了一个全新的基准,并为未来的多模态理解模型和自动驾驶系统的信任建立奠定了基础。

3.2 基于视觉问答的场景空间理解

自动驾驶需要对复杂的三维环境进行全面理解,以便执行如运动预测、路径规划和地图构建等下游任务。然而,现有的VQA工作通常忽略了复杂的目标空间关系,多侧重于图像描述或单一目标的位置关系,而在自动驾驶场景中,目标之间间的空间关系尤为重要。DriveMLLM[7]通过引入绝对空间推理相对位置推理任务,专门用于评估多模态大语言模型在自动驾驶场景中的空间理解能力,填补了这一空白,如下图所示。

DriveMLLM从 nuScenes数据集提取了880张前视摄像头的高分辨率图像,并基于自然语言设计了空间推理问答任务,特别是绝对空间推理(如物体定位)和相对位置推理(如物体间的相对距离、前后关系)。这些任务不仅考察了模型的目标检测能力,还可以考察模型在更复杂空间关系的推理能力。为了确保数据集的质量和推理的有效性,进行了多步数据筛选,包括对图像中的目标进行过滤,以去除模糊、遮挡或歪斜的目标,保证数据的清晰度和可分析性。为了评估模型在空间理解方面的表现,DriveMLLM结合了准确率和效率两大指标,对模型在自动驾驶场景下的空间推理能力进行综合评估。实验表明,大多数现有模型在空间理解任务上的表现仍存在显著的不足,尤其是在绝对空间推理任务上,现有模型表现差强人意。

3.3、基于思维链推理的场景理解

思维链推理(CoT)是一种逐步推理的技术,它通过多个推理步骤的逐步累积,最终得出一个正确的结论。在自动驾驶场景中,思维链推理能够帮助系统模拟人类驾驶员的决策过程。在驾驶过程中,人类驾驶员通常会先识别周围的物体,接着根据这些物体的状态预测它们可能的动作,再结合当前交通规则和道路状况做出最终的决策。上述的现有针对自动驾驶场景的VQA方法多集中于单轮问答,虽然在理解领域取得突破进展,但仍然面临以下挑战:

  • 推理方式单一:以往工作多局限于“单轮 VQA”(如描述场景中的单个目标或行为),缺乏对多个目标间交互和行为逻辑的建模。

  • 结构缺失:传统VQA任务无法模拟人类对驾驶行为“感知→预测→规划”的连续推理流程,缺乏任务级的阶段性组织。

  • 泛化能力弱:面对新的传感器配置或未见过的场景时性能骤降,泛化能力较差。

然而驾驶决策通常涉及多步推理,包括感知关键物体、预测物体行为、规划行动以及执行决策等过程。常规的VQA难以模拟人类驾驶员的多步推理过程。DriveVLM[8]通过场景描述模块生成对驾驶场景的文本描述,包括天气、时间、道路和车道等信息。场景分析模块通过分析关键目标的静态属性、运动状态和特殊行为,预测这些目标对自车的影响。分层规划模块则根据这些分析结果生成驾驶计划,包括动作、决策描述和轨迹路径等。此外,DriveVLM提出的DriveVLM-Dual通过集成传统的3D感知和规划模块,来解决VLMs的空间推理和计算难题,利用3D检测方法获取目标信息,进一步加强了对关键目标的分析,并能够进行高频次的轨迹细化,从而提高了算法的实时性和准确度,如下图所示。

DriveVLM在少样本场景下表现优越,尤其是在处理复杂的动态场景时,超越了现有SOTA方法。DriveVLM-Dual在集成了传统的3D感知和规划模块后,能够有效提高空间推理和高频轨迹规划的能力,并在生产车辆上成功部署,验证了其实用性和有效性。

DriveLM[9]则通过“图结构的视觉问答(Graph Visual Question Answering, GVQA)”任务来模拟人类的多阶段推理过程。以图结构方式组织问答对,将每个问题视作图中的节点,不同任务阶段之间的逻辑依赖关系作为边,构建有向无环图。推理流程包括五个阶段:(1)、P1 感知:识别和定位关键目标;(2) P2 预测:估计目标未来可能行为;(3)、P3 规划:基于预测结果制定自车安全行为;(4)B 行为:自然语言描述自车的决策动作;(5)、M 运动:输出自车未来轨迹点;为支撑该任务,DriveLM构建了两个大型多模态数据集:DriveLM-nuScenes(真实场景)与 DriveLM-CARLA(仿真),如下图所示。

DriveLM还提出了模型 DriveLM-Agent,通过上下文提示机制将前一阶段的回答作为下一阶段问题的输入,从而实现多步语言推理。实验结果表明,DriveLM-Agent在GVQA任务上表现优异,能够有效地进行多步推理,在未见过的传感器配置和目标进行zero-shot评估时,DriveLM-Agent的表现优于传统方法,显示出其良好的泛化能力。此外,其在感知、预测和规划等方面的问答对上表现突出,证明GVQA在模拟人类推理过程中的有效性。

DriveLMM-o1[10]旨在推动 逐步思维链推理(step-by-step reasoning) 在高安全需求场景中的研究与落地。与以往侧重于“最终答案准确性”的方法不同,DriveLMM-o1 强调过程推理的透明性、逻辑性和可解释性,覆盖自动驾驶中的三大核心任务:感知(perception)、预测(prediction)和规划(planning),如下图所示。

DriveLMM-o1构建了覆盖1,962个驾驶场景的图像和点云数据集,包含 18,507个问答对,配有超过 55,000条手工修订的思维链,真实模拟了驾驶决策的推理过程。使用多视角图像(multi-view images)+ LiDAR 点云,融合高分辨率图像并对齐语义,提升场景理解的全面性与鲁棒性。设计了10类覆盖全面的VQA问题类型,确保了感知-预测-规划链条的闭环结构。初步答案由GPT-4o生成,再由人工审核与修订,确保每一步推理符合真实世界逻辑与交通规范。引入驾驶场景专属的七大维度评估指标,如风险评估准确率、交通规则遵循率、场景理解度、细节完整性等,以评价推理链条质量。在与多个开源模型(如Qwen2.5-VL、LLaVA-CoT等)的对比中表现SOTA。

4. 主要研究挑战

  1. 空间推理能力有限:现有模型在驾驶场景中对三维空间关系的理解不足。模型难以准确理解道路上各个目标的相对位置、距离和布局,在涉及精细空间位置推理的问答任务中容易出错 。

  2. 长序列理解和记忆不足:自动驾驶场景通常涉及连续帧数据,但现有模型缺乏有效的长序列建模与记忆机制来处理这些信息。这意味着模型对持续变化的场景和事件的理解不完整,难以连贯地回答涉及一系列动作或时间顺序的问题。

  3. 多模态语义融合和对齐困难:融合并对齐图像、点云与文本等多模态感知与语言信息存在挑战。如视觉的像素级特征与语言的语义特征之间存在显著鸿沟,跨模态语义对齐较为困难。尤其在包含复杂场景的图像与文本问答中,模型往往难以将图像细节准确映射到语言描述上,从而导致场景理解和问答的语义出现偏差。

  4. 动态场景理解与因果推理不足:自动驾驶环境中的动态目标复杂多变,模型不仅需要准确检测和跟踪行人、车辆等移动目标,还必须推断它们的行为意图及行为的因果关系,这一综合认知任务对当前模型而言极为困难 。例如,在车流密集的场景下出现突然并线等突发状况时,模型常会误解或遗漏关键场景要素 ,难以及时预见其他交通参与者的下一步动作,或正确解释复杂交通事件发生的原因。

  5. 多步推理链构造困难:视觉问答常需要模型经过一系列推理步骤才能得出正确结论,但让模型自主形成连贯可靠的推理链非常具有挑战性。如果缺乏明确的分步推理,模型往往会出现推理错误甚至凭空捏造“幻觉”信息[11]。尽管近期有工作尝试通过思维链分解决策过程以减少错误,但如何在自动驾驶VQA中有效构建多步推理链仍是有待解决的难题。

  6. 计算资源限制与实时性不足:多模态大模型参数规模庞大、算力需求高,在车载计算平台上实现实时推理困难。计算资源的限制严重影响了模型在实际自动驾驶系统中的部署,难以在保证安全的同时满足实时性能要求。

  7. 安全验证难题:模型的黑箱特性意味着其决策过程难以理解和预测,且可能生成看似合理实则错误的“幻觉”回答。在需要高安全性的驾驶场景中,这种不可解释性和不确定性使得安全性验证变得极为困难。此外,模型还易受对抗样本攻击的干扰,微小的输入扰动就可能误导模型的判断。

5. 未来研究方向

  1. 因果与时间推理能力:自动驾驶场景的数据天然具有强时序性和因果性,未来模型需增强对“过去—现在—未来”动态演化的建模能力。

  2. 高质量推理链:当前大模型在自动驾驶场景中缺乏稳定、可解释的多步推理能力。未来研究可结合Chain-of-Thought Prompting与 Graph-based QA 结构,指导模型逐步生成因果明确的“认知路径”。

  3. 轻量化与实时部署:基于 LoRA、Adapter、Patch Tuning 的参数高效微调方案,结合硬件优化(如混合精度)提升推理速度,支持ms级响应。

  4. 更真实、更多样的多模态数据集构建:亟需覆盖长尾场景、多种天气、夜晚、交互行为等多样情况的高质量多模态数据集。可参考如 DriveLMM-o1 的逐步标注模式。

  5. 安全性与鲁棒性评估机制:构建模拟危险行为或模糊目标的场景,用于极端行为推理评估,可考虑引入“问答干扰样本”验证模型对提示偏差或歧义语言的敏感度。或考虑与规划模块联动,研究推理链缺陷是否会直接引发安全风险。

6.总结

本文系统回顾并梳理了自动驾驶中环境感知、场景理解与思维链推理的研究演进路径,特别聚焦于场景理解任务。从传统的图像/点云检测任务出发,介绍了BEV与Occupancy等新型空间表示方式,阐明了它们在统一场景理解中的价值。随后,结合NuScenes-QA、LingoQA、DriveMLLM、DriveVLM、DriveLM、DriveLMM-o1 等代表性工作,全面探讨了自动驾驶视觉问答任务在场景理解、空间理解、思维链推理等方面的关键技术与面临的挑战。总体而言,环境理解与思维链推理标志着自动驾驶系统正逐步迈向从感知驱动向认知驱动的智能升级。在未来,具备“可问答、可解释、可规划”的自动驾驶系统将有望成为高级别自动驾驶发展的核心技术。

参考文献

[1]. Multi-modal Sensor Fusion for Auto Driving Perception: A Survey.
[2]. Multi-Modal 3D Object Detection in Autonomous Driving: a Survey.
[3]. BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View.
[4]. Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction.
[5]. NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving Scenario.
[6]. LingoQA: Visual Question Answering for Autonomous Driving.
[7]. DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving.
[8]. DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models.
[9]. DriveLM: Driving with Graph Visual Question Answering.
[10]. DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding.
[11]. Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives.

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值