DiffAD:自动驾驶的统一扩散建模方法~

作者 | 黄浴 编辑 | 自动驾驶之心

 原文链接:https://zhuanlan.zhihu.com/p/1892243273671738953 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『扩散模型』技术交流群

本文只做学术分享,如有侵权,联系删文

25年3月来自酷睿程 Carizon 和北航的论文“DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving”。

端到端自动驾驶 (E2E-AD) 已迅速成为实现完全自动驾驶的一种有前途的方法。然而,现有的 E2E-AD 系统通常采用传统的多任务框架,通过单独的特定任务头来处理感知、预测和规划任务。尽管以完全可微分的方式进行训练,但它们仍然遇到任务协调问题,并且系统复杂性仍然很高。这项工作引入 DiffAD——一种扩散概率模型,它将自动驾驶重新定义为条件图像生成任务。通过将异构目标栅格化到统一的鸟瞰图 (BEV) 上并对其潜分布进行建模,DiffAD 统一各种驾驶目标并在单一框架中联合优化所有驾驶任务,显着降低系统复杂性并协调任务协调。逆过程迭代细化生成的 BEV 图像,从而产生更稳健和逼真的驾驶行为。


实现全自动驾驶不仅需要对复杂场景有深入的理解,还需要与动态环境进行有效的交互,并全面学习驾驶行为。传统的自动驾驶系统建立在模块化架构之上,感知、预测和规划都是独立开发的,然后集成到车载系统中。虽然这种设计提供可解释性并方便调试,但跨模块的单独优化目标往往会导致信息丢失和错误积累。

最近的端到端自动驾驶 (E2E-AD) 方法(例如 [3、16、20])试图通过实现所有组件的联合、完全可微分训练来克服这些限制,如图 (a) 所示。然而,仍然存在几个关键问题:

  1. 次优优化:像 UniAD [16] 和 VAD [20] 这样的方法仍然依赖于顺序流水线,其中规划阶段取决于前面模块的输出。这种依赖性可能会放大整个系统的错误。

    1. 查询建模效率低下:当前基于查询的方法(例如 [16, 20])部署数千个可学习查询来捕获潜在的交通元素。这种方法导致计算资源分配效率低下,过多关注上游辅助任务而不是核心规划模块。例如,在 VAD 中,感知任务消耗了总运行时间的 34.6%,而规划模块仅占 5.7%。

    1. 协调复杂性:由于每个任务头都使用不同的目标函数独立优化,并且目标的形状和语义含义各不相同,因此整个系统变得支离破碎,难以进行连贯训练 [5]。

    为了解决这些限制,本文提出一种范式 DiffAD,它将所有驾驶任务的优化统一到一个模型中,如图 (b) 所示。具体来说,将感知、预测和规划中的异构目标栅格化到统一的鸟瞰图 (BEV) 空间中,从而将自动驾驶问题重塑为条件图像生成问题之一。


    扩散模型,也称为基于分数的生成模型 [14, 39, 42],在正向(扩散)过程中逐渐将噪声注入数据,并通过反向(去噪)过程从噪声中生成数据。

    如图所示,DiffAD 由三个主要组件组成:潜在扩散模型、BEV 特征生成器和轨迹提取网络 (TEN)。

    训练过程:

    1. 栅格化和潜空间编码:DiffAD 首先将感知、预测和规划目标栅格化为 BEV 图像。然后使用现成的 VAE 编码器将 BEV 图像压缩到潜空间以进行降维。

    2. 特征提取和转换:将周围视图图像输入到特征提取器中,该提取器将生成的透视图特征转换为统一的 BEV 特征。

    3. 用于噪声预测的扩散模型:将高斯噪声添加到潜 BEV 图像中以获得噪声潜图像。训练扩散模型以根据 BEV 特征预测来自噪声潜表示的噪声。

    4. 轨迹提取:训练基于查询的 TEN,从潜 BEV 图像中恢复自我智体的矢量化轨迹。

    推理过程:

    1. 条件去噪:DiffAD 首先根据 BEV 特征,从纯高斯噪声中生成去噪的潜 BEV 图像。

    2. 规划提取:TEN 然后从潜 BEV 图像中提取自智体的规划轨迹。

    3. 解码 BEV:通过将潜 BEV 图像解码回像素空间,可以获得预测的 BEV 图像以供解释和调试。


    据说开环评估不足以满足 E2E 模型的要求 [19, 26]。为了解决这个问题,用 Bench2Drive 数据集在 CARLA 模拟器中进行训练和闭环评估[8]。Bench2Drive 提供三个数据子集:mini(10 个剪辑用于调试)、base(1,000 个剪辑)和 full(10,000 个剪辑用于大规模研究)。按照 [19] 的方法,用基础子集进行训练。

    训练。用来自 Stable Diffusion[36] 的现成预训练变分自动编码器 (VAE) 模型 [23]。VAE 编码器的下采样因子为 8。在所有实验中,扩散模型都在潜空间中运行。保留来自 DiT [34] 的扩散超参。为了促进学习过程,在第一阶段从感知部分(即检测和地图)的单幅图像学习开始,而预测和规划 BEV 图像则用零填充。然后在时间设置中与所有感知、预测和规划部分联合训练模型。

    推理。利用 DDIM-10 采样器 [40] 进行推理,并使用官方评估工具 [19] 来计算闭环指标。对于车辆控制,采用官方提供的 PID 控制器。

    自动驾驶之心

    论文辅导来啦

    知识星球交流社区

    近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

    独家专业课程

    端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

    学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值