端到端感知决策大模型能够真正实现无人驾驶？深度详解大模型与自动驾驶发展路径

最新推荐文章于 2024-08-05 11:02:14 发布

auto-mooc

最新推荐文章于 2024-08-05 11:02:14 发布

阅读量3.4k

点赞数 26

文章标签：自动驾驶人工智能机器学习

本文链接：https://blog.csdn.net/auto_mooc/article/details/136294661

版权

2023年，大模型迅速崭露头角，深刻推动自动驾驶技术的创新与重构。端到端自动驾驶解决方案逐渐成为行业探索的焦点。基于Transformer的BEV感知模型成为自动驾驶感知的主流范式，推动了“重感知轻地图”的技术路径，催动了城市NOA的落地进程。

在城市NOA进入规模化竞争周期的当下，在大模型技术的赋能下，自动驾驶技术有哪些方面的进展呢？

本文将从自动驾驶技术进展及趋势、大模型应用于自动驾驶的技术路线来聊聊当前阶段下的自动驾驶。

技术进展

现有的自动驾驶汽车的常用开发思路是将整个系统划分为独立的层和功能。例如，智能车辆首先通过感知层感知驾驶环境参数，识别目标类型。然后通过情景评估，提高对驾驶行为意图等驾驶环境的了解，并估计和预测未来的驾驶风险程度，评估其他道路使用者的风险水平，正确认识环境。最后，自动驾驶汽车通过决策和执行控制系统完成行为和路径规划，从而实现驾驶操作任务。

具体来说，主流的自动驾驶系统按功能划分为感知、预测、规划、控制四大核心模块，从开发途径看，当前与基于场景和任务驱动的研发思路对应的主要有模块化和端到端两大类。

1.模块化自动驾驶方案

在现行的自动驾驶技术体系中，感知、预测、规划、控制及执行等关键模块多采取功能叠加的设计理念，各自独立进行研发。如图所示，是一种经典的分层式模块架构。

随着自动驾驶技术向更高水平演进，系统需要集成更高级别的功能。在传统的研究模式中，通常是在既有系统之上叠加新系统以实现功能集成，创造新的功能。这种以“结构分层、功能叠加”为特征的集成架构，因其简洁性和易实施性，更适合队分工协作，便于问题回溯，易于调试迭代，更具工程落地可实施性，在智能驾驶系统初期发展阶段起到了关键作用。

但是，随着智能车辆级别的提升和功能需求的增加，子系统的整合导致系统结构变得更加复杂，不同模块之间功能和结构的耦合与重叠现象日益严重，可能会引起系统结构冗余、资源利用效率低下以及系统成本增加等问题。

尤其是在当前的模块化分层框架下，决策规划过程主流的处理方式是基于专家知识和规则的方法。这一方法能有效应对L2级别的决策需求，是针对特定场景和任务驱动的自动驾驶的有效策略。其典型的方法如有限状态机等，以其规则直观、易读、实现简便等特点，在简单场景下表现出较好的适用性。然而，这种方法在处理未知情况时的泛化能力不足，这使得它难以扩展到复杂不确定的实际驾驶场景中，尤其是在未来高阶智能驾驶的应用上。

2.“端到端”自动驾驶方案

端到端是深度学习中的概念，英文为“end-to-end（E2E）”。

自英伟达于2016年发表论文《End to End Learning for Self-Driving Cars》提出一种输入图像、输出方向盘转角的深度卷积神经网络，到CVPR2023最佳论文《Planning-oriented Autonomous Driving》提出与大模型结合的端到端方案UniAD，端到端自动驾驶不断发展。

端到端自动驾驶方案是将自动驾驶系统看作一个黑箱，所有模块神经网络化，训练一个或多个神经网络，从而得到从感知到控制的直接映射。具体的说，即通过传感器采集到原始数据，将原始数据输入神经网络系统，直接给车辆底层控制器输出加速、制动、转向等驾驶指令。

端到端的思想在自动驾驶方案应用中具有显著的优势。端到端自动驾驶模型由神经网络构建，以数据和算力为主导，显著提升了模型的训练效率和性能上限，可以说是自动驾驶算法模型的理想状态。但神经网络的黑盒性质使得端到端模型缺乏可解释性，尤其无法保障极端情况下模型输出的安全性，增加了错误风险以及研发调试的难度。

什么是大模型？

大模型又被称为基础模型（foudation model），是指具有大规模参数、使用海量数据训练的大型神经网络模型。之所以被称为foundation model，是因为它们可以作为许多下游任务的起点，通过微调来适应特定的应用。简单的说，可以将大模型理解为一个基础，通过不同的训练数据，可以应用于不同的场景。

现有大模型多以Transformer架构为基础，采用预训练+微调技术进行参数学习，使之适配不同领域的具体任务，经剪枝压缩后完成最终部署。

预训练：是指在大规模没有标注的数据集上进行无监督或自监督的学习。通过预训练，模型能够获得通用的知识和能力。

微调：是指将预训练好的大模型在有标注的数据集上进行有监督的学习，目的是让模型适应特定的任务和场景。

Transformer架构：Transformer是Google在2017年的论文《Attention Is All You Need》中提出，解决了传统序列模型在处理出距离依赖、并行计算、上下文信息获取以及迁移学习等方面的问题。

Transformer模型的结构如图所示，模型由编码器（encoder）和解码器（decoder）组成。简而言之，编码器负责理解输入，解码器负责生成输出。编码器将输入的数据转换成一种计算机能理解的高维抽象表示，解码器则利用编码器输出的高维抽象表示信息生成目标序列.

在实际的应用中，编码器和解码器通常分别包含多个层，每层都由如图所示的几个主要部分组成，以增加模型的深度和能力。

Transformer模型通过注意力（attention）机制，挖掘长序列内的依赖关系，可以适应不同长度和不同结构的输入，从而提高模型的在处理序列数据上的能力。并且Transformer可以进行并行计算，能有效提升计算效率，所以在基础模型（foudation model）得到广泛的应用。

大模型在自动驾驶系统中的应用

大模型技术的应用已成为自动驾驶主流趋势。自动驾驶大模型通过建立于大量真实交通数据上的预训练，在车辆、行人、道路标志、红绿灯等多种场景下自动生成语义信息，进而充分理解并掌握城市交通中各种复杂情境，从而有效地提升自动驾驶车辆的安全性和可靠性。
许多企业都在探索和尝试大模型技术在自动驾驶领域的应用，包括采用大模型预训练的方式实现数据自动标注、利用大模型的泛化性进行长尾数据的挖掘等。另外当前阶段，大模型在车端自动驾驶领域的应用主要是在感知系统，正在逐渐向预测、规划渗透。并且随着大模型与自动驾驶产业的结合，端到端自动驾驶再次成为业界的远期共识。

1.感知大模型

准确、高效地感知车辆周围信息是自动驾驶运行的基础，感知的结果对下游的运动预测、行为决策和路径规划有着至关重要的作用。感知模块作为自动驾驶关键的组成部分，从2011年至今，经历了从CNN（卷积神经网络）到RNN（循环神经网络）+GAN（生成对抗网络）、BEV（鸟瞰图），到BEV+Transformer+占用网络的多样化模型迭代。
视觉传感器的图像描述的是一个2D视角，决策和规划都是车辆在3D空间进行的。这种维度的差异，就导致基于视觉的感知结果实现自动驾驶非常困难。这个差异还影响着多视角相机的融合过程。

这个问题的本质是视觉传感器缺乏对深度信息的探测能力，解决深度信息的获取问题，或许可以降低由此带来的困难。

关于如何获取深度信息的解决方法上，出现了纯视觉的自动驾驶感知方案和多传感器融合的感知方案之争。多传感觉融合的感知方案是借助与毫米波雷达、激光雷达等传感器来补充深度感知能力，辅助视觉传感器将图像平面感知结果转换到车辆所在3D空间。纯视觉方案坚持基于视觉学习得到从图像理解空间的能力，使系统具备从2D平面视角到3D自车空间的转换能力，从而获得自动驾驶的能力。这就意味着无论是纯视觉还是多传感器融合，感知的信息都需要转换到车辆所在的3D空间，而描述这个3D空间的术语被称为BEV map或BEV features，将这个三维的坐标系从上向下拍扁，就形成所谓BEV坐标系。

具体来说，BEV（Bird’s Eye View），是指一种鸟瞰式的视角或坐标系，可以立体描述感知到的现实世界，相当于在车辆正上方10-20米处向下俯视车辆及周围环境，也被叫做“上帝视角”。相对应的，BEV也代指将视觉信息由图像空间端到端地转换到BEV空间下的技术。

在实现这一任务时，BEV的关键在于将2D图像作为输入，并最终输出一个3D框架。

显然此时的难点转变为如何多视角或多模态下高效的获取最佳BEV map/features。

图示：BEV感知流程

目前，BEV技术主要基于深度学习方法，根据BEV features的组织方式，有两类主流方法。一类通常称为自底向上方法，其核心是：首先对各个相机图像2D采样特征点进行深度分布估计，得到包含图像特征的点云；然后结合相机的内外参将所有相机的点云映射到BEV网络中；最后每个栅格中的多个点云点进行计算（即进行多个视角的融合），形成BEV features。这种方法早期的代表工作是LSS，后来的BEVDET、BEVDepth等也是基于此进行优化的。

另一种被称为自顶向下的方法，典型代表是特斯拉基于Transformer构建的BEV感知方法。在2021年，特斯拉AI DAY上展示有关BEVFormer的更多细节，并宣布将基于该方案开发其新版的FSD，并且开始重构自动驾驶软件架构，率先将AI大模型应用到车端。这种方法的核心思想：首先预先定义待生成的BEV features，然后通过多层Transformer与每个图像特征进行交互融合，以获取与之对应的BEV features。Transformr采用交叉注意力机制，并行训练数据，在跨模态和时序融合过程中，能够更加全面地在空间时序上建模，形成时序融合下的4D空间信息，从而使感知结果更加连续、稳定。

图示：基于Transformer的纯视觉时空融合原理图

图源：《BEVFormer：Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

图示：基于Transformer的多模态融合原理图

图源：《Multi-Modal Fusion Transformer for End-to-End Autonomous Driving》

这种方法的典型代表还有纯视觉的DETR3D、PETR以及多模态的FUTR3D、BEVFusion、Transfunsion等。

为解决BEV视角下高度信息缺失、标注数据集不足等问题，特斯拉在BEV+Transformer的基础上引入了占用网络（Occupancy network）。占用网络的基本思想是将点云数据转化为一个体素（voxel：三维像素）网格，并在每个体素上学习一个二值分类器，用于判断该体素是否被某个物体占用。占用网络输入多相机的感知信息，输出3D空间中的体素占据概率、语意和速度信息等，为BEV提供深度和高度信息，可以更精准的还原车辆周围3D环境。除了特斯拉的Occupancy net，这类方法的研究代表还有法国INRIA的MonoScene、清华的Occ3D和旷视的OccDepth等。

目前包括比亚迪、蔚来、小鹏、理想、智己等国内车企，以及华为、百度Apollo、毫末智行、商汤科技等自动驾驶企业均已布局和应用BEV+Transformer，利用感知大模型进行视觉感知融合，识别车辆周围的各类物体，构建动态实时地图。

2.预测大模型

预测模块是自动驾驶核心模块之一，处于感知的下游、规控的上游位置。轨迹预测的输入为感知系统提供的交通参与者历史轨迹、道路结构、以及交通参与者之间的交互等信息，输出为对感知到的各类交通参与者未来可能的轨迹。对周围车辆轨迹的精确预测可以辅助自动驾驶车辆做出合理的决策规划和控制，进而实现车辆在异构高动态复杂多变环境中安全行驶。
人类驾驶员驾驶车辆时会凭借自身经验及实时环境，综合考虑可安全通行的驾驶方式。而对于自动驾驶预测算法而言，是需要对其他交通参与者的风险行为进行具体的量化和建模，预测出其他交通参与者未来一段时间的轨迹。在真实的交通场景中，交通参与者的多样性及意图复杂性为预测带来了很大的困难。当前在自动驾驶汽车的预测中通常是先对预测对象进行分类，再针对不同预测对象进行轨迹预测。

传统的轨迹预测方法通常依赖于成熟的数学和统计技术，根据历史数据和预定义的模型进行预测。常用的方法有基于物理模型的方法、基于概率模型的方法、基于卡尔曼滤波器的方法以及基于马尔可夫模型的方法。这类方法简单高效，并且不需要训练数据就可以应用；但由于忽略了环境和交互因素，导致获得的轨迹可能只是局部最优解，因此只适用于短期预测以及无障碍物的开放环境。

基于学习的方法是利用神经网络模型，从大量的数据中学习复杂的模式及关系，从而预测未来的轨迹。相比传统的预测方法，深度学习的方法在复杂的现实场景有显著的优势，例如卷积神经网络（CNN）使用卷积层检测局部空间特征并分层组合以识别复杂模式，已经得到广泛应用；基于深度学习的长短期记忆网络（LSTM）因其可以控制每一时刻信息的记忆与遗忘，对信息有了筛选保留的能力，可以进行长序列的信息处理，在轨迹的长期预测方面有较好的效果。采用单一的神经网络用于轨迹预测还存在较多缺陷，所以又有采用混合神经网络完善轨迹预测的结果的方法，例如结合了卷积LSTM和深度卷积神经网络的卷积-循环框架（CNN-LSTM）等。

基于学习的轨迹预测方法通常采用编码-解码架构，包括信息表示、场景编码和多模态解码等主要环节。

图示：Wayformer模框架

图源：《Wayformer: Motion Forecasting via Simple & Efficient Attention Networks》

信息表示包括道路结构与交通参与者历史轨迹，均被处理为适合直接使用神经网络进行特征提取的形式。

场景编码将信息输入到神经网络中进行特征提取，得到当前场景的表征。当前主要编码网络有循环神经网络RNN、图神经网络GNN和Transformer网络。

多模态解码环节由场景特征输出预测轨迹，主要方案包括全连接神经网络DNN、循环神经网络RNN和Transformer网络等。基于Transformer的多模态轨迹预测模型可同时处理时空信息，实现端到端式预测，实现长时域、高精度的运动预测需求，代表研究工作包括谷歌Wayformer、清华SEPT和毫末智行DriveGPT。

3.感知决策一体化大模型

2023年8月，马斯克在社交平台上直播演示了特斯拉FSD Beta V12系统，并于11月底宣布向员工推出FSD V12版本。马斯克强调，FSD V12将实现全新的“端到端自动驾驶”，全程都是通过AI实现，其中不包括任何一行由程序员编写的道路识别、行人识别等代码，全部交给了神经网络来实现。
在这里插入图片描述
图源网络公开资料

2023年CVPR获奖论文《Planning-oriented Autonomous Driving》（由上海AI实验室、武汉大学和商汤科技三方联合研究）提出的感知决策一体化的自动驾驶通用大模型——Unified Autonomous Driving（UniAD）与特斯拉端到端方案思想类似。UniAD将目标检测、目标跟踪、场景建图、轨迹预测、占用预测、路径规划整合到一个基于Transformer的端到端网络框架下，实现了以全栈驾驶任务为目标的自动驾驶通用大模型。

UniAD用了多组查询向量（Query）串联起多个任务，实现信息传递，随后将所有融合的信息传至最终的规划模块。同时，每个模块的Transformer架构，通过注意力机制，可有效实现对查询向量的交互。

图示：UniAD

图源：《Planning-oriented Autonomous Driving》

具体而言，UniAD框架使用BEVFormer作为特征提取器，利用其特征提取时序融合能力辅助下游任务。

在感知（Perception）环节，UniAD可以实现对动态元素的特征提取、帧间物体跟踪；MapFormer实现了对静态物体的特征提取、实例级地图预测。

在预测（Prediction）环节，UniAD实现了动、静态元素交互与长时序轨迹预测；OccFormer实现了短时序全场景BEV、实例级预测。

在规划（Planning）环节，UniAD实现了基于自车查询机制的轨迹预测和基于占用栅格的碰撞优化。Planner对前序模块的结果进行整合，输出未来轨迹预测以实现避障规划。

根据论文，UniAD采用分阶段联合训练的方式：第一阶段预训练感知模块；第二阶段联合训练所有模块，实现最终结果优化。

从在nuScense真实场景数据测试结果来看，所有任务均达到领域最佳性能，尤其是预测和规划效果远超之前的方案。

简单来说，UniAD首次将全栈关键任务端到端地包含在一个统一的网络架构中，提出了全新的“全栈可控”端到端方案，通过系统联合调优，取得比此前所有架构都要更优的应用效果。

论文作者之一、上海人工智能实验室青年科学家李弘扬博士表示，UniAD提供了全套关键自动驾驶任务配置，其充分的可解释性、安全性、与多模块的可持续迭代性，是目前为止最具希望实际部署的端到端模型。这个框架奠定了多任务端到端自动驾驶大模型的基础，具有很强的可扩展性。通过增加模型参数与扩充海量数据双轮驱动，可进一步实现自动驾驶大模型。

当然，论文本身也指出，UniAD大模型是庞大且复杂的系统工程，涉及感知、预测、规划等领域，其中的技术优化与工程化存在着很大的难度。但不可否认的是，UniAD开创了以全局任务为目标的自动驾驶大模型架构先河，为自动驾驶技术与产业发展提出了全新的方向和空间。

总结

总体而言，大模型在自动驾驶车端的应用上，在感知方面，BEV、Occupancy Network等技术方案已被广泛接受，且感知模块正朝向更端到端化以及与预测模块深度融合发展。在决策规划方面，尽管基于规则的经典技术仍占主导，但以数据驱动的方法正逐渐被应用至该领域，未来技术形态尚不明确。

在数字化浪潮的推动下，自动驾驶从硬件驱动到软件驱动，并正在进入以数据驱动的阶段。在这一阶段，大模型是核心要素之一，大模型的发展必将推智能驾驶具备更全面、更智能的感知和理解能力。而当前大模型正处于发展的初级阶段，在自动驾驶中的应用仍面临很多挑战。大模型技术本身就需要大算力和海量数据的支撑，而在车端无论数据存储空间还是计算能力上都受很多因素约束，其研发及部署的技术难度都非常大，所以大模型在自动驾驶全栈的落地量产应用可能还需要漫长的过程。

auto-mooc

关注

26
点赞
踩
61

收藏

觉得还不错? 一键收藏
1
评论
端到端感知决策大模型能够真正实现无人驾驶？深度详解大模型与自动驾驶发展路径

大模型又被称为基础模型（foudation model），是指具有大规模参数、使用海量数据训练的大型神经网络模型。之所以被称为foundation model，是因为它们可以作为许多下游任务的起点，通过微调来适应特定的应用。简单的说，可以将大模型理解为一个基础，通过不同的训练数据，可以应用于不同的场景。现有大模型多以Transformer架构为基础，采用预训练+微调技术进行参数学习，使之适配不同领域的具体任务，经剪枝压缩后完成最终部署。预训练：是指在大规模没有标注的数据集上进行无监督或自监督的学习。
复制链接

扫一扫