自动驾驶端到端技术行业研究报告
key Points
端到端面临的诸多挑战
技术路线: 端到端技术路线还未形成最佳实践,技术路线存在分歧。
数据: 在端到端技术架构下,训练数据的重要性得到前所未有的提升,其中,数据量、数据标注、数据质量和数据分布的相关问题都可能成为限制端到端应用的挑战。
训练算力: 端到端训练算力需求急剧提升,行业头部玩家均储备千卡 ~ 万卡级训练算力。
测试验证: 现有测试验证方法不适用于端到端自动驾驶,行业亟需新的测试验证方法论和工具链。
组织资源投入: 端到端需要组织架构重塑,也需要将资源投入倾斜到数据侧,对现有模式提出挑战。
附赠自动驾驶最全的学习资料和量产经验:链接
自动驾驶和通用人形机器人的关系
自动驾驶和通用人形机器人已经成为物理世界 AGI 发展最重要的两个应用领域,比较二者在落地之路上遇到问题和解决路径,可以给另一个领域更大的启发。
传统自动驾驶的典型结构
传统自动驾驶架构的典型代表——Apollo 3.0 软件架构
端到端结构的演进
自动驾驶架构演进示意图
其中,
第二阶段,两个主要模块之间的接口仍然基于人类的理解定义(如障碍物位置,道路边界等);另外,在这一阶段,各模块仍然会进行独立训练。
第三阶段,首先,感知模块不再输出基于人类理解定义的结果,而更多给出的是特征向量。相应地,预测决策规划模块的综合模型基于特征向量输出运动规划的结果。在训练方式上,这个阶段的模型必须支持跨模块的梯度传导 —— 两个模块均无法独立进行训练,训练必须通过梯度传导的方式同时进行。
关键概念之间的区别
-
端到端与大模型
- 端到端与大模型这两个概念经常被混淆在一起。 但实际上,两者并不必然相关 —— 大模型更多关注模型的参数数量以及涌现能力,而端到端更多强调的是结构上的梯度可传导以及全局优化。
-
端到端与世界模型
- 世界模型的概念是指能够学习及揭示真实世界物理及数学定律的模型,例如能够学习并理解重力、力的相互作用等常见特性,并基于这些理解给出对未来一段时间的预测视频作为模型输出。
-
端到端与纯视觉传感器方案
- 目前的端到端自动驾驶方案对于车端传感器没有特殊要求,所以采用端到端的方案对于车端的感知传感器架构几乎不造成任何影响。
‘自动驾驶领域的大模型都是小于 1B 的模型’
在自动驾驶的应用场景中,所使用的大型神经网络模型的参数量通常不会超过10亿个参数。以下是几个关键点来帮助理解这个概念:
参数量与模型复杂度:神经网络的参数量决定了模型的复杂度。参数越多,模型能够捕捉的数据模式就越复杂,但同时需要的训练数据也更多,计算资源和内存需求也更大。
计算资源限制:自动驾驶系统需要在车辆自身的计算平台上运行,这些平台的计算能力有限,无法支持像一些大型语言模型那样拥有数百亿甚至数千亿参数的模型。
实时性要求:自动驾驶系统需要快速做出决策,因此模型必须能够在实时或近实时的环境中做出反应。过大的模型会增加推理时间,影响系统的响应速度。
能效比:车载系统还需要考虑能效比,即在有限的能源供应下,模型需要在保持高效能的同时做出准确的预测。
泛化能力与过拟合:虽然较大的模型可能在训练数据上表现更好,但也可能更容易过拟合,即学习到训练数据中的噪声而非潜在的数据分布。较小的模型可能在泛化能力上表现更好。
技术发展:随着技术的发展,车载计算平台的性能在不断提升,未来可能会有参数量更多的模型被应用到自动驾驶中。但目前,考虑到上述限制,自动驾驶领域的大模型参数量通常小于10亿。
模型优化:为了在有限的参数量下实现更好的性能,研究人员可能会采用模型剪枝、量化、知识蒸馏等技术来优化模型,使其既轻量化又保持高效的预测能力。
因此,当报告中提到自动驾驶领域的大模型都是小于1B的模型时,它强调了在当前技术条件下,为了满足实时性、能效比和泛化能力等要求,自动驾驶系统倾向于使用相对较小但经过精心设计的模型。
端到端关键成果
- NVIDIA: DAVE-2 (2016)
DAVE-2 的网络结构
2. Wayve: Learning to Drive in a Day (2018)
Wayve 基于强化学习的端到端神经网络
3. comma.ai: OpenPilot (2017)
传统自动驾驶解决方案与 OpenPilot 方案对比
4. OpenDriveLab: UniAD (2023)
UniAD 架构图
5. Wayve: GAIA-1 (2023)
6. Wayve: LINGO-2 (2024)
这项工作首次将视觉 - 语言 - 动作融合的大模型搭载上车,并开始商业化测试。例如,当 AI 决定减速时,它会向用户解释是因为检测到前方有行人过马路,从而增强用户对自动驾驶系统的信任感。
LINGO-2 架构
7. Tesla: FSD v12.3(2023)
业内普遍认为这些表现的巨大提升很大程度地建立在决策规划模块化基础方案之上,但是目前尚无法具体判断出 Tesla的实现方案处于本报告定义的 “ 决策规划模型化 ”“ 模块化端到端 ” 或者 “OneModel 端到端 ” 中的哪一个阶段。
强化学习(Reinforcement Learning, RL)和模仿学习(Imitation Learning, IL)是两种在机器学习和人工智能领域中用于训练智能体(agent)的技术。它们在自动驾驶、机器人技术、游戏等领域有广泛的应用。以下是对这两种学习方式的简要介绍:
强化学习(Reinforcement Learning, RL)
强化学习是一种让智能体通过与环境的交互来学习最佳行为策略的方法。在RL中,智能体尝试通过执行动作来最大化某种累积奖励。以下是RL的关键概念:
智能体(Agent):在环境中采取行动的实体。
环境(Environment):智能体所处并进行交互的外部世界。
状态(State):环境在某一时刻的具体情况或配置。
动作(Action):智能体可以执行的可能行为之一。
奖励(Reward):对智能体执行动作的反馈,通常是一个数值,表示动作的好坏。
策略(Policy):从状态到动作的映射,智能体遵循这个策略进行决策。
价值函数(Value Function):预测采取某个策略后获得的累积奖励。
Q函数(Q-Function):预测在给定状态下采取特定动作的期望回报。
强化学习通常涉及探索(尝试新动作以发现更好的策略)与利用(使用已知的最佳策略)之间的权衡。
模仿学习(Imitation Learning, IL)
模仿学习是一种通过模仿专家的行为来训练智能体的方法。在IL中,智能体观察专家的行为并尝试复制这些行为。以下是IL的关键概念:
专家(Expert):展示了期望行为的人类或模型。
行为克隆(Behavior Cloning, BC):直接从专家的行为中学习策略,通常通过监督学习实现。
逆强化学习(Inverse Reinforcement Learning, IRL):尝试推断专家行为背后的奖励函数。
模仿学习算法:如DAgger(Dataset Aggregation)等,这些算法通过结合专家演示和智能体自身的探索来提高学习效果。
模仿学习通常用于那些难以直接定义奖励函数的场景,通过学习专家的决策过程来获得策略。
应用场景
-
自动驾驶:强化学习可以用于训练自动驾驶车辆在复杂交通环境中的决策能力。模仿学习则可以用于学习专业驾驶员的驾驶风格。
-
机器人:在机器人领域,强化学习可以帮助机器人学习如何执行任务,而模仿学习可以用于复制人类的动作或行为。
国内主要玩家分析
第一类 OEM
-
小鹏
- 小鹏的端到端大模型有三个组成部分:神经网络 XNet+ 规控大模型 XPlanner+ 大语言模型 XBrain
小鹏发布端到端大模型
2. 鸿蒙智行
ADS 3.0 在 ADS 2.0 基础上实现了决策规划的模型化,为端到端架构的持续演进奠定了基础。
华为发布 ADS3.0 的端到端架构
3. 蔚来汽车
第一步是模型化,行业基本已经完成了感知的模型化,但是规控的模型化方面头部公司也没有完全做好,
第二步是端到端,去掉不同模块间人为定义的接口,
第三步是大模型。
4. 零一汽车
零一汽车发布端到端自动驾驶系统
第二类 自动驾驶算法和系统公司
5. 元戎启行
元戎启行端到端演进路线
6. 商汤绝影
商汤绝影发布 UniAD 端到端解决方案
7. 小马智行
特点:
一、多维度的数据来源
二、全面的数据处理工具
三、模型具有可解释性(真能做到么?如何做到的?)
四、出色安全的驾驶技术
8. 鉴智机器人
鉴智机器人 GraphAD 端到端网络
9. 英伟达
吴新宙认为,端到端是自动驾驶的最终一步,接下来几年端到端模型和原有模型会在自动驾驶中相辅相成,端到端模型提供更拟人且灵活的处理,而原来的模型和方法则可以保证安全性。
10. 地平线
在硬件技术上,地平线专为大参数 Transformer 而生的新一代智能计算架构 BPU 纳什,能够以高度的软硬协同打造业界领先的计算效率。
地平线 SuperDrive 技术架构向端到端演进
第三类 自动驾驶生成式 AI 公司
什么是‘生成式AI’
生成式人工智能(Generative AI)是指一类能够生成新数据实例的人工智能技术。这种技术不仅限于复制或模仿现有数据模式,而是能够创造出全新的、与训练数据相似但不同的实例。以下是对生成式AI的几个关键点理解:
1. 数据创造:生成式AI的核心能力是创造新的数据实例,例如图像、文本、音频或视频,这些实例在统计上与真实数据相似,但具有独特性。
2. 潜在空间:生成式模型通常定义了一个潜在空间(latent space),这是一个高维空间,其中的每个点都可以通过解码过程转换成实际的数据实例。
3. 概率分布:生成式AI学习训练数据的概率分布,以便能够生成符合该分布的新实例。
4. 模型类型:
- 生成对抗网络(GANs):通过两个网络的对抗过程生成数据,一个生成器网络产生数据,另一个鉴别器网络评估数据的真实性。
- 变分自编码器(VAEs):使用编码器将数据编码到潜在空间,然后使用解码器从潜在空间生成数据。
- 自回归模型:如PixelRNN和WaveNet,通过逐步生成每个像素或音频样本来创建数据。
5. 应用领域:
- 艺术创作:生成式AI可以创作新的艺术作品,如绘画、音乐或写作。
- 数据增强:在机器学习中,用于增加训练数据的多样性,提高模型的泛化能力。
- 内容创作:自动生成新闻文章、故事或其他类型的内容。
- 游戏和娱乐:创建游戏环境、角色或情节。
6. 挑战:
- 模式崩溃:生成的实例可能在训练过程中失去多样性,开始重复相同的模式。
- 评估难度:评估生成数据的质量比评估分类或回归任务的结果更具挑战性。
- 计算资源:生成式模型通常需要大量的计算资源进行训练。
7. 伦理和安全问题:生成式AI可能被用于制造虚假信息或误导性内容,因此需要考虑其伦理和安全影响。
8. 未来趋势:随着技术的进步,生成式AI正变得越来越复杂和强大,能够生成更加逼真和多样化的数据实例。
生成式AI是人工智能领域的一个重要分支,它推动了机器学习、计算机视觉、自然语言处理等多个领域的边界,并在艺术创作、内容生产、数据科学等领域展现出广泛的应用潜力。
11. 光轮智能
光轮智能致力于为企业落地 AI 提供合成数据解决方案,结合生成式 AI 和仿真技术,为行业提供多模态、高真实度、可泛化、全链路的合成数据。解决自动驾驶、具身智能行业中真实数据采集难、 Corner Case 数据缺乏、标注成本高、回环周期长、利用率低等问题。
12. 极佳科技
极佳科技是一家专注于世界模型技术和视频生成应用的公司。全球首个物理世界驱动的自动驾驶世界模型 DriveDreamer。
DriveDreamer 模型架构
第四类 学术研究机构
13. 上海人工智能实验室
14. 清华大学 MARS Lab
“无保护左转”(Unprotected Left Turn)是自动驾驶和驾驶行为中的一个术语,指的是在没有交通信号灯或交通标志明确指示的情况下,车辆需要从直行或右转车道进行左转。这种驾驶动作通常较为复杂,因为驾驶员或自动驾驶系统需要评估和应对多个方向上的交通流量和潜在冲突。以下是对“无保护左转”的几个关键点理解:
交通环境评估:进行无保护左转时,驾驶员或自动驾驶系统需要评估对面和侧面的来车情况,判断是否存在左转的空间和时机。
风险管理:由于缺乏信号灯的保护,无保护左转涉及更高的风险,需要谨慎地管理潜在的碰撞风险。
驾驶策略:驾驶员或自动驾驶系统可能需要采取特定的策略,例如减速、停车观望、使用转向灯示意等,以确保左转的安全性。
交通规则:在某些地区,无保护左转可能受到交通规则的限制或禁止,驾驶员或自动驾驶系统需要遵守这些规则。
与其他车辆的交互:进行无保护左转时,驾驶员或系统需要与其他道路使用者进行非语言沟通,例如通过眼神接触或手势来表明意图。
传感器和算法:在自动驾驶汽车中,无保护左转需要依赖先进的传感器(如摄像头、雷达、激光雷达)和算法来感知周围环境并做出决策。
用户体验:对于乘客而言,无保护左转可能会带来额外的紧张感,因为它看起来比简单的直行或右转更为复杂。
技术挑战:对于自动驾驶系统来说,无保护左转是一个技术挑战,因为它需要实时处理多个动态变量并做出快速反应。
安全优先:无论是人类驾驶员还是自动驾驶系统,在执行无保护左转时,安全总是首要考虑的因素。
实际应用:在城市交通中,无保护左转是一种常见的驾驶操作,对于提高道路效率和处理复杂的交通场景至关重要。
端到端发展的驱动力
-
将浩如烟海的 “Use Case 定义和分析 ” 的工作转向 “ 场景提取 ” 和 “ 数据挖掘 ” 方向。类比 ChatGPT的出现将原来细分的 NLP 任务统一,端到端自动驾驶也可能意味着自动驾驶任务的统一。
-
传统的感知 - 融合 - 预测 - 决策 - 规划架构可能涉及到十几个子系统和更多的软件模块,而端到端则可以将与之相关的子系统缩减为一个。子系统简化意味着研发团队的分工简化,并可以大大减少部门墙对组织效率的影响。
-
端到端对公司组织架构的影响还体现在 AI Infra 的重要性将持续提升。由于核心算法的开发范式全部更迭为数据驱动的开发范式。
-
自动驾驶公司的组织架构可能演变为 AI 算法 + AI Infra 的双核心。
大语言模型将传统自然语言处理的多个任务统一为一个基础模型
MLOps 工具链全景图
AGI 新范式对自动驾驶的启发包含以下几点:
a. 生成式的训练框架,特点是自回归、模型可与环境交互,减少了数据标注 的巨额成本。
b. Transformer 作为基础模型结构的强大能力。
c. 通过增加模型规模和数据量提升模型性能( Scaling Law)。
“Occupancy Network”(占用网络)是一种用于自动驾驶和机器人领域的人工智能模型,它主要用于3D空间的表示和理解。这种模型特别关注于表示空间中物体的存在和位置,即确定空间中的哪些区域被物体占用。以下是对"Occupancy Network"的几个关键点理解:
3D空间表示:Occupancy Network提供了一种方式来表示三维空间,通常是通过一个3D网格或体素(voxel)网格来实现。
物体占用:每个体素或网格单元表示空间中的一个特定体积,可以被标记为“占用”或“空闲”,从而表示物体是否存在于该空间。
语义信息:除了占用状态,Occupancy Network还可以包含关于物体类型的语义信息,例如车辆、行人或障碍物。
传感器数据融合:这种网络能够处理来自多种传感器的数据,如激光雷达(LiDAR)、摄像头和雷达,以获得对环境的全面理解。
实时处理:在自动驾驶汽车中,Occupancy Network需要实时处理传感器输入,以便快速做出驾驶决策。
路径规划:通过理解空间占用情况,Occupancy Network可以用于路径规划,帮助自动驾驶系统避开障碍物并找到可行路径。
环境交互:这种网络能够模拟自动驾驶车辆与环境的交互,预测其他道路使用者的行为,从而提高安全性。
端到端学习:Occupancy Network可以作为端到端自动驾驶系统的一部分,直接从传感器数据学习到驾驶策略。
技术挑战:尽管Occupancy Network提供了强大的空间表示能力,但它们在处理复杂环境和实时性要求方面仍面临技术挑战。
研究与应用:Occupancy Network是自动驾驶和机器人领域的研究热点,许多研究团队和公司正在探索其在实际系统中的应用。
特斯拉的应用:特斯拉在自动驾驶技术中使用了类似Occupancy Network的概念,其CEO埃隆·马斯克(Elon Musk)曾提到这种技术在特斯拉的全自动驾驶(FSD)系统中的作用。
落地面临的挑战
-
技术路线分歧
-
对训练数据要求
-
首先是训练端到端所需的数据量。
-
第二是数据标注需求的变化。
-
第三是对数据质量的要求。
- 自动驾驶系统的理想目标是像老司机一样开车,而很多驾驶员的驾驶行为并能达到 “ 老司机 ” 的水平,这就需要一套有效的数据管理和处理流程,仅提取老司机所驾驶的车辆在特定场景下的高质量数据,这也增加了数据获取的难度。
-
第四是数据分布问题。
-
-
对算力的要求
-
测试验证方法尚不成熟
-
组织资源投入的挑战
-
车载芯片算力会不会成为瓶颈
-
模型缺乏“可解释性”是否构成障碍
展望
开源生态在端到端算法的发展中扮演重要角色。长期来看,模型本身收敛后,数据将会成为模型性能的护城河。
闭环仿真将成为端到端量产的重要基础。
基于世界模型的仿真器和传统仿真器对比
车载芯片架构创新将更好地支持端到端模型部署。
一个原生支持 Transformer 的计算架构应包含高浮点算力、特殊算子优化加速、高带宽存储等特点。硬件先行的思路在算法技术架构高速迭代的今天正面临着极大挑战。
行业切换至端到端架构后, “ 高质量数据 ” 和 “ 顶尖 AI 人才 ” 可能成为更重要的资源要素。
其中,数据是主机厂的核心资产,能够持续量产交付的主机厂并不会缺少数据。
端到端自动驾驶与通用机器人
对通用人工智能实现时间的预测
追求 “ 一定范围的下的通用 ” 可能是机器人更务实的落地路径,
“具身智能”(Embodied Intelligence)是一个涉及人工智能、机器人学和认知科学的跨学科概念,它强调智能行为与物理身体之间的密切联系。以下是对"具身智能"的几个关键点理解:
身体与智能的关系:具身智能认为智能行为不仅仅是大脑或中央处理单元的产物,而是与身体的感觉、运动能力以及与环境的互动紧密相关。
感知-动作循环:在具身智能中,感知(通过身体感知环境)和动作(身体对环境的作用)构成了一个循环,智能行为是通过这个循环不断学习和适应的结果。
情境适应性:具身智能强调智能系统必须能够适应其所处的具体情境,包括物理环境和社会环境。
自主性:具身智能系统通常具有一定程度的自主性,能够独立地感知环境、做出决策并执行动作。
多模态感知:这类系统通常具备多种感知能力,如视觉、听觉、触觉等,这些感知能力帮助系统更好地理解其所处的环境。
交互学习:具身智能系统通过与环境的交互来学习,这种学习方式可能包括模仿、探索和试错等。
物理实现:具身智能通常需要物理实现,即通过机器人或其他物理形式的代理来体现智能行为。
社会交互:在某些情况下,具身智能还包括与人类或其他智能体的社会交互,理解和生成社会信号。
应用领域:具身智能在自动驾驶汽车、服务机器人、人机交互、仿真和虚拟现实等领域有广泛的应用。
技术挑战:实现具身智能面临技术挑战,包括感知技术、运动控制、学习算法、硬件设计等。
哲学基础:具身智能也与一些哲学观点相联系,如"4E认知"(Embodied, Embedded, Enactive, Extended Cognition),这些观点认为认知过程是身体化、嵌入环境、主动生成和扩展到外部世界的。
未来趋势:随着人工智能和机器人技术的不断进步,具身智能有望成为实现更高级智能系统的关键途径。
缩写
LLM( LargeLanguage Model,大语言模型)
VLM( Visual Language Model,视觉语言模型)
“无保护左转”(Unprotected Left Turn)
生成式人工智能(Generative AI)
AGI (Artificial General Intelligence, 通用人工智能)
Occupancy Network(占用网络)
SLAM( Simultaneous Localization and Mapping 众包地图)
ROS( Robot Operating System)是机器人领域的标准中间件
“具身智能”(Embodied Intelligence)