汽车端到端自动驾驶系统的关键技术与发展趋势

更多优质内容,请关注公众号:智驾机器人技术前线

文章信息

李升波,刘畅,殷玉明,等.汽车端到端自动驾驶系统的关键技术与发展趋势[J].人工智能,2023,(05):1-16.DOI:10.16453/j.2096-5036.202350.

摘要

随着以ChatGPT为代表的生成式人工智能的发展,端到端自动驾驶系统得到了广泛关注,有望为通用场景的驾驶智能带来革命性突破。以全部模块神经网络化为特征的端到端系统对专家规则的依赖度低,功能的集约性与实时性强,具备智能涌现能力和跨场景应用潜力,是实现数据驱动自进化驾驶能力的重要途径。本文概述了端到端汽车自动驾驶系统的关键技术与发展趋势。首先,介绍生成式人工智能的技术现状,包括网络架构设计、预训练与微调,以及模型剪枝与压缩等;其次,总结端到端自动驾驶的关键技术,其核心是以车云协同为基础的驾驶大数据和自动驾驶大模型的在线循环迭代;再次,归纳该类自动驾驶系统的发展现状,尤其是感知、预测和决控三大功能的技术进展;最后,总结生成式人工智能与自动驾驶融合发展的技术挑战。

生成式人工智能的技术现状

数据、算力和算法是大模型发展的支柱,其中算法是大模型的核心技术体现。现有大模型多以 Transformer 结构为基础,采用“预训练(Pre-training)+ 微调(Finetune)”技术进行参数学习,使之适配不同领域的具体任务,经剪枝压缩后完成最终部署。本节将围绕网络架构、预训练、微调和剪枝压缩四个方面对大模型关键技术进行介绍。

神经网络的架构设计

大模型的出现得益于深度学习浪潮中深度神经网络的发展。深层网络的学习建模能力更强,有利于模型的性能提升。在 2012 年,神经网络结构 AlexNet[8] 夺得 ImageNet[9] 竞赛冠军,首次证明学习到的特征可以超越手工设计的特征,人们逐渐开始关注神经网络。在 2015 年,神经网络结构 ResNet[10] 被提出,将网络深度成功增加到了152层。在 2017 年,Google 提出了神经网络结构 Transformer[11],如图 1 所示,大幅提升了网络表达能力,在计算机视觉(CV)、自然语言处理(NLP)等多个领域大放异彩,Transformer 现已成为大模型的基础网络结构之一。Transformer 是以注意力机制为核心的编解码器结构, 其主要结构为注意力、位置编码、残差连接、层归一化模块。

image

预训练与微调技术

预训练是使大模型获得通用知识并加速模型在微调阶段收敛的关键步骤。根据序列建模的方式,语言模型可以分为自回归语言模型和自编码语言模型,如图 2 所示。自回归语言模型使用 Transformer 的解码器结构,根据前文预测下一个词,从而对序列的联合概率进行单向建模。这种方式适用于文本生成任务,例如 GPT 系列模型 [13,19]。然而,自回归模型无法利用下文信息,只能单纯利用上文信息进行预训练。自编码语言模型则利用 Transformer 的编码器结构,通过预测序列中的某个词双向建模序列的联合概率。

image

大模型预训练 - 微调的范式也被应用于计算机视觉领域。其中,监督学习是视觉模型基础的预训练方式。自 2009 年以来,大规模图像数据集 ImageNet[9] 为视觉模型的监督学习提供数据支持。然而,监督学习依赖于具有人工标签的数据,数据规模限制了模型大小与能力,视觉模型的无监督预训练方案被提出。 在序列决策领域,大决策模型被认为有潜力处理多种决策任务。在序列决策问题中,存有环境状态、智能体动作和奖励轨迹(trajectory),包含了环境动力学、智能体策略、奖励函数等信息,因而可以将序列决策问题转化为序列建模问题。Gato[17] 通过模仿专家演示预训练策略,可以使用同一模型完成 Atari 游戏、机器人控制、图片描述、对话等 600 多个任务,展现了大决策模型的通用能力。VPT[25] 在预训练中学习大量的视频数据模仿人类行为,使后续微调过程更加高效。除了使用大模型直接学习策略,DeepMind 的研究表明,Transformer 建模的环境动力学在单一任务上性能优越,在多个任务之间表现出良好的泛化性,且泛化动力学模型比泛化最优策略更有效。

微调是指将预训练好的大模型在下游任务中进行调整,使之与具体任务更加适配。微调后的大模型与预训练大模型相比,在下游任务中性能通常大幅提升。随着模型规模不断增大,微调所有参数变得十分困难,因此近年来出现了多种高效微调方法,包括 Vanilla Finetune、Prompt Tuning,以及 Reinforcement Learning from Human Feedback(RLHF)等方法,如图3所示。

image

模型的剪枝与压缩

训练好的大模型需要部署在算力和内存受限的系统上,因此需要对大模型进行剪枝和压缩,减小模型中的冗余结构和信息,使其能够在受限的计算资源上进行快速推理,同时尽量减小对模型精度的影响。大模型的压缩方法主要包括模型剪枝、知识蒸馏和量化。

神经网络参数存在冗余,可以通过模型剪枝去除部分神经元而依然保持相近的表达能力。已有部分研究针对 Transformer 的多头注意力模块剪枝,提出的剪枝方法在不严重影响模型性能的情况下去除大多数注意力头 [28]。此外,LLM-Pruner[29] 是针对大语言模型的结构剪枝方法,仅需较少的训练数据,利用梯度信息移除非关键性的耦合结构,剪枝后的模型依然具备解决多任务问题的能力。

知识蒸馏是模型压缩的常用方法,将预训练大模型视为“教师模型”,将教师模型隐藏层的参数或输出结果作为知识载体,指导规模更小的“学生模型”训练。TinyBERT[30] 为基于 Transformer 的模型提出知识蒸馏方法,并以 BERT 为教师模型,在预训练和微调两个阶段进行蒸馏;DistilBERT[31] 引入结合语言模型、蒸馏和余弦距离的三重损失函数,以利用大模型在预训练中学到的归纳偏置。

量化方法将模型中的浮点运算转换为较低精度数据的计算。Q8BERT[32] 在 BERT 的微调阶段进行 8 比特量化训练,在较小的精度损失下实现模型 4 倍压缩;一般的硬件不支持 4 比特量化训练,有研究针对 Transformer 的激活函数和梯度结构提出硬件支持的 4 比特量化器 [33]。

端到端自动驾驶的关键技术体系

以大模型为代表的通用人工智能是迈向高级别自动驾驶最具潜力的发展路径之一,是智能网联汽车进一步发展的战略前瞻方向。人工智能技术与自动驾驶技术的融合,关键在于打通以车云协同为核心的边缘场景数据采集和自动驾驶模型训练的在线循环迭代路径。图 4 展示了车云协同的自动驾驶大模型开发方案—由一定规模具有网联功能的车辆进行众包数据采集,数据清洗和筛选之后上传至云控计算平台;利用云控平台的充足算力,生成海量仿真驾驶数据;融合虚实数据进行场景构建,利用自监督学习、强化学习[34]、对抗学习等方法对自动驾驶大模型进行在线迭代优化;所学大模型经剪枝压缩后得到车规级实时模型,并通过OTA方式下载到车载芯片,完成车端驾驶策略的自进化学习。

image

image

具体包括以下几个方面内容。

  1. 面向自动驾驶的大模型基础理论。研究适用于驾驶大数据的基础大模型预训练方法和学习范式;开展面向复杂道路交通场景的人在回路反馈微调方法,实现人机价值对齐和功能协同;充分利用大模型的涌现能力,逐步提升模型效能,发展接近和超越人类的自动驾驶通用人工智能;研究车用人工智能基础大模型的内生安全保障问题,建立自动驾驶基础大模型的智能性水平评估方法。

  2. 自动驾驶感知认知通用基础大模型。研究面向通用感知认知模型的信息编码、处理、记忆、学习和推理理论;设计具备融合处理视频、声音、点云等多源感知数据的通用编码模型结构;开展泛场景、泛对象、跨模态适用的高精度道路目标检测和场景认知通用基础模型学习训练;研究全监督、弱监督和混合监督学习结合的通用基础模型训练框架和方法;开展人在回路的模型微调技术,实现语义级4D(三维空间 + 时间)认知输出。

  3. 自动驾驶决策控制通用基础大模型。设计适用于异构道路交通场景的自动驾驶决策控制一体化框架;研发适配自动驾驶决策和控制特性的通用基础模型架构;研究利用人类智能与领域知识的可量化安全约束裕度;研发具有严格安全保障的决策控制通用基础模型参数更新方法;引入人在回路的自动驾驶决策控制机制,加强人类指令对于车辆的引导控制;设计以高稳定、高安全强化学习为代表,数据驱动与知识引导相结合的决策控制通用基础模型训练算法。

  4. 自动驾驶大数据采集生成与自动标注。构建网联多车数据的同步采集、传输、规整与存储等标准化众包体系,研发具有数据增强功能的半 / 全自动化数据标注方法,建立包含丰富罕见高危案例以及跨域道路交通场景的数据集;发展基于人工智能内容生成的长尾案例生成技术,增强训练数据的丰富性与代表性;构建模拟仿真环境数据与真实场景数据的域迁移方法,使得仿真环境采集数据能够增广真实场景驾驶数据,提升自动驾驶大型基础模型训练数据规模和质量;开发平衡罕见高危案例与常规驾驶案例样本分布的数据采样算法,提升自动驾驶基础大模型训练学习效率。

  5. 车云协同的基础大模型持续进化。研发实车运行数据与云端存量数据交互的动态迭代更新方法,发展通用基础模型参数的鲁棒信赖更新方法,保证自动驾驶性能的单调上升;设计云端离线训练和车端在线部署结合的通用基础模型迭代更新框架,利用少量数据实现通用基础大模型稳定增量学习;发展面向复杂驾驶场景的连续学习技术,实现自动驾驶模型的知识更新和累积泛化;研发适用于车载异构控制器的基础大模型量化压缩技术,针对不同车型形成定制化的模型部署方案;构建模型压缩加速性能评估方法,检验车端部署模型的性能。

  6. 自主可控的车用集成部署工具链与平台。建立以自主可控计算芯片和操作系统为核心的大规模计算、传输和存储服务器集群,满足基础大模型高性能算力需求和高速存储需求;研发完全自主可控的通用基础模型训练框架及其工具软件[35];开发面向海量多源自动驾驶数据的自动标注工具软件;面向自动驾驶模型训练需求,构建高保真的人车路仿真训练环境;开发用于基础大模型的训练、测试、量化压缩、在线部署的工具软件;搭建包含实车的通用基础模型集成测试平台,支持模型的在线应用与反馈更新。

端到端自动驾驶的技术发展趋势

随着大模型技术的不断发展,以 ChatGPT 为代表的大模型技术展现出令人惊叹的效果。大模型已在多项产业实践中得到初步应用,有望成为实体经济新的增长引擎。本章将总结大模型在感知、预测和控制方面的产业应用。

感知大模型

自动驾驶的感知模块利用传感器采集的数据,实时动态地生成驾驶环境的感知结果。环境感知有两种技术路线,一种是以特斯拉为代表的以摄像头为主导的纯视觉方案,另一种是以谷歌和百度为代表的以激光雷达为主导的多源传感器融合方案。不同传感器的功能、优势各不相同,融合方案可以结合各类传感器的优势,提升感知精确性。

感知大模型是提升车辆自动驾驶能力的核心驱动力之一,这些模型能够识别和理解道路、交通标志、行人、车辆等信息,为自动驾驶车辆提供环境感知,继而用于车辆自主决策。2020 年,由 Google 团队提出的 Vision Transformer(ViT)模型 [15],首次将 Transformer 模型应用于图像分类任务,为感知大模型的发展奠定了基础。ViT 完全依赖于自注意力机制(self-attention)捕捉全局图像之间的关系,通过将图像拆分为小图像块并将它们作为序列输入到 Transformer 中,实现对图像的处理和理解。ViT 模型简单、效果瞩目,且随着预训练数据规模的增长性能不断提升,有利于模型向更大的参数量扩展。此外,ViT 还拥有着 Transformer 兼容多模态信息的先天优势,有利于大模型丰富其应用场景。

鸟瞰图感知(Bird's Eye View,BEV)是当前主流感知方案之一,它将摄像头、雷达等多源传感器的感知信息转换至鸟瞰视角,并行地完成目标检测、图像分割、跟踪和预测等多项感知任务,如图 5 所示。相比于传统串行感知架构重复特征提取、误差累计传递等缺陷,鸟瞰图感知可以直接通过数据驱动,将多源传感器的特征进行融合,并进行端到端优化。此外,鸟瞰图感知结果更加直观,容易实现时序信息的融合,更适合下游预测和规划任务。典型工作如特斯拉的 BEV 感知,百度的 UniBEV 和商汤的FastBEV[38]。

image

image

预测大模型

预测是自动驾驶的关键组成部分,它主要涉及对周边交通参与者未来运动状态的预测,也称为轨迹预测。轨迹预测综合考虑道路结构、历史轨迹,以及与其他交通参与者的交互关系等信息,输出一条或多条未来可能行驶的轨迹,供下游决策控制任务参考。数据驱动型的轨迹预测方法通常采用编码 - 解码架构,包括信息表示、场景编码和多模态解码等主要环节。

道路结构与交通参与者历史轨迹是轨迹预测的主要信息来源,具有显著的结构化特征,将其处理成适合神经网络输入的形式是数据驱动训练的重要环节 [40]。具体而言,道路信息主要有位图(rasterized map)与向量(vectorized map)两种转化为神经网络输入的表达形式。位图方案 [41,42] 将与预测有关的道路绘制成俯视图,将道路的各方面信息使用图片的不同通道表达,适合直接使用卷积神经网络进行特征提取,但具有视野、分辨率方面的限制,不利于对于长距离交互关系的建模。向量方案 [6,43] 以待预测车辆为中心,将道路表达为若干首尾相连的向量,相比于位图,表达的信息更加紧凑。历史轨迹信息主要以向量形式输入 [6],但在部分采用位图表示道路的方案中,也将历史轨迹绘制到位图上,统一输入神经网络提取特征 [44]。

编码环节将信息输入到神经网络中进行特征提取,得到当前场景的表征。向量形式的输入具有数量不固定的特点,且单个交通参与者历史轨迹向量之间存在时序关系,而道路向量以及多个交通参与者之间则不存在明确顺序,网络的选择与设计需要适应这些特征,主要编码网络有循环神经网络、图神经网络和 Transformer 网络几种方案。循环神经网络通过循环结构处理变长序列 [41];图神经网络使用节点和边显式表达空间拓扑、动态交互等数据关联 [45];近年来,随着大模型技术的发展,Transformer 网络具有表达形式统一、可并行运算、易于扩展规模,以及通过注意力机制能够表达复杂交互关系的特点,已成为主流的编码方案和预测大模型的主流架构 [46,47]。清华大学提出了基于 Transformer 网络的 SEPT 运动预测框架 [48],首创了针对编码网络的场景理解训练方法。通过引入对轨迹、道路结构等输入模态的掩码 - 重建预训练任务,实现了编码网络对交通场景的高效理解,从而大幅提升预测性能。

解码环节由场景表征输出预测轨迹,主要方案包括全连接神经网络 [42]、循环神经网络 [41] 和 Transformer 网络 [46] 等。交通参与者的意图通常具有不确定性,存在多种可能的未来行驶轨迹,因此轨迹预测需要建模这种多模态性。为了实现预测的多模态性,上述方案通常额外学习一定数目的嵌入向量,每个嵌入向量与当前场景表征组合,解码得到一种模态 [47]。多个模态构成的轨迹分布,主要通过高斯混合模型 [41,47]、带权集合 [43] 或热力图 [45] 等形式表达。基于 Transformer 的多模态轨迹预测模型可同时处理时空信息,实现端到端式预测,满足长时域、高精度的运动预测需求,代表工作包括谷歌 Wayformer[47]、清华 SEPT[48] 和毫末智行 DriveGPT 等。WayFormer 是数据驱动轨迹预测的典型代表 [47],框架简明统一,由基于注意力机制的场景编码器和解码器组成,完全采用Transformer 网络并扩展到大型多维序列,减少了每个块的自注意分量和位置前馈网络的计算成本,且在多个数据集上取得了领先的性能表现。这表明,Transformer 网络在自动驾驶研究中具有很大潜力。SEPT 在架构设计上不依赖人工锚点及预采样轨迹等经验设计,以简洁的网络架构实现了预测性能与推理速度的提升。自动驾驶生成式预训练大模型 DriveGPT 具有快速发现问题场景、快速筛选与自动标注场景数据、生成罕见场景数据,以及云端仿真测评等能力,显著降低驾驶轨迹的误差。

决控大模型

自主决策与运动控制是自动驾驶的核心功能,决策与控制水平的高低决定了自动驾驶汽车的智能程度。自主决策是指结合全局行车目标、自车状态、感知信息,以及轨迹预测结果,从而决定驾驶行为模式,并对期望参考轨迹进行规划。运动控制是指利用车辆动力学或运动学,将决策结果转化为具体的油门、制动、转向等执行机构的控制指令。由于自主决策的输出与运动控制的输入具有较强耦合性,这两个模块通常被集成为一个“决控系统”进行设计 [49]。自动驾驶决控系统的技术方案主要经过了三个发展阶段—专家规则型、模仿学习型,以及类脑学习型 [49]

目前,产业界尚缺乏用于自动驾驶的决策与控制一体化大模型。由清华大学提出的集成式架构(IDC)[52] 将决策与控制整合为统一的约束型最优控制问题,利用数据驱动算法求解评价模型与策略模型,它以环境感知结果为输入,直接输出油门、制动、转向等控制指令 [52]。IDC 具有在线计算效率高、可解释性强、无需人工标注数据、可自回归地预测下一个动作等优点,为大模型应用于自动驾驶决控奠定了基础。

端到端训练的自动驾驶模型

端到端的自动驾驶方案将输入的原始传感器数据直接映射输出为轨迹点或低级控制命令,与分层式架构相比,其简洁的方案结构与巨大的性能潜力,使得这一概念风靡一时。现有研究往往将其与模仿学习、强化学习和并行学习相结合,以提高自动驾驶系统的智能性。早在 2021 年,Peng 等提出了用于端到端自动驾驶的深度强化学习算法,证明了强化学习是实现端到端自动驾驶的有力工具 [57]。其将原始图像和速度矢量作为 其输入,设计了车道保持任务的动作空间、状态空间、奖励函数和神经网络体系结构。通过在 TORCS 上对算法进行训练和评估,证明了应用该算法的端到端方法显著优于人类驾驶员。此外,该研究通过神经网络可视化,表明车辆通过观察车道线实现车道保持,一定程度上增加了端到端网络的可解释性。

尽管如此,端到端方案的产业应用仍面临着数据短缺、学习效率低下和鲁棒性差等问题,尤其无法保障任何极端情况下模型输出的安全性,这将成为其应用于自动驾驶领域的最大挑战之一。然而,随着大模型的快速发展,端到端模型焕发出新的生机。大模型强大的泛化能力,与端到端自动驾驶技术相结合,被认为是突破长尾困境,保障自动驾驶安全性的重要方向。

总结

智能化是汽车技术变革的主要方向之一,以 ChatGPT 为代表的生成式人工智能为突破高级别驾驶智能提供了潜在方案。本文阐述了端到端自动驾驶的技术路径与发展趋势,包括生成式人工智能的技术现状、端到端自动驾驶的技术体系,以及感知、预测、决控大模型的发展现状。

  1. 与小模型相比,大模型性能随着参数量的增加呈现智能涌现规律,即参数规模达到一定程度时性能急剧提升。其次,大模型的训练对标签数据的依赖程度低,具有可扩展性和适应性。以自监督学习为基础,其训练过程利用数据本身特性生成训练信号,从而学习数据的内在结构和模式。此外,大模型具有跨领域应用的潜力。通过使用大规模数据进行预训练,其能够更好地理解语义和上下文信息,并支持针对特定任务进行优化, 进一步提升专业性能,摆脱了小模型场景碎片化、难以复用的局限性。

  2. 当前,面向城市交通场景的高级别自动驾驶仍未实现商业化应用,原因在于行驶安全性难以保障。驾驶数据呈现长尾分布特性,边缘场景非常罕见,难以被穷举,导致自动驾驶行驶百万公里的平均事故数仍远高于人类驾驶员。依托海量驾驶数据,结合数据驱动算法训练自动驾驶的感知、预测和决控大模型,是提高系统对场景泛化能力的重要方法,也是提升高级别自动驾驶安全性的核心路径。

  3. 以大模型为代表的生成式人工智能是智能网联汽车发展的战略前瞻方向。这需要进一步突破:① 适用于驾驶大数据的大模型预训练方法和学习理论;② 泛场景、泛对象、跨模态适用的感知认知和决策控制通用基础模型;③ 仿真环境数据与真实场景数据结合的大规模数据采集与标注系统;④ 车云协同的基础大模型持续进化技术与车用集成部署工具链与平台等。以上技术的攻关将打通以车云协同为核心的驾驶大数据和自动驾驶大模型算法在线循环迭代路径,推动端到端自动驾驶技术在全场景的落地应用。

本文仅做学术分享,如有侵权,请联系删文!

 更多优质内容,请关注公众号:智驾机器人技术前线

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值