DiffAD：自动驾驶的统一扩散建模方法~

最新推荐文章于 2025-04-27 21:12:58 发布

自动驾驶之心

最新推荐文章于 2025-04-27 21:12:58 发布

阅读量178

点赞数

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247662414&idx=3&sn=42c6adeeb8a4d5610f438d2e2db4e4c3&chksm=cf8feaf639b51860f002fb905ce977a2b7facb2db5e895d85fbaa429f6e76f661501cc508d04&scene=126&sessionid=0

版权

作者 | 黄浴编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/1892243273671738953

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『扩散模型』技术交流群

本文只做学术分享，如有侵权，联系删文

25年3月来自酷睿程 Carizon 和北航的论文“DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving”。

端到端自动驾驶 (E2E-AD) 已迅速成为实现完全自动驾驶的一种有前途的方法。然而，现有的 E2E-AD 系统通常采用传统的多任务框架，通过单独的特定任务头来处理感知、预测和规划任务。尽管以完全可微分的方式进行训练，但它们仍然遇到任务协调问题，并且系统复杂性仍然很高。这项工作引入 DiffAD——一种扩散概率模型，它将自动驾驶重新定义为条件图像生成任务。通过将异构目标栅格化到统一的鸟瞰图 (BEV) 上并对其潜分布进行建模，DiffAD 统一各种驾驶目标并在单一框架中联合优化所有驾驶任务，显着降低系统复杂性并协调任务协调。逆过程迭代细化生成的 BEV 图像，从而产生更稳健和逼真的驾驶行为。

实现全自动驾驶不仅需要对复杂场景有深入的理解，还需要与动态环境进行有效的交互，并全面学习驾驶行为。传统的自动驾驶系统建立在模块化架构之上，感知、预测和规划都是独立开发的，然后集成到车载系统中。虽然这种设计提供可解释性并方便调试，但跨模块的单独优化目标往往会导致信息丢失和错误积累。

最近的端到端自动驾驶 (E2E-AD) 方法（例如 [3、16、20]）试图通过实现所有组件的联合、完全可微分训练来克服这些限制，如图 (a) 所示。然而，仍然存在几个关键问题：

次优优化：像 UniAD [16] 和 VAD [20] 这样的方法仍然依赖于顺序流水线，其中规划阶段取决于前面模块的输出。这种依赖性可能会放大整个系统的错误。

1. 查询建模效率低下：当前基于查询的方法（例如 [16, 20]）部署数千个可学习查询来捕获潜在的交通元素。这种方法导致计算资源分配效率低下，过多关注上游辅助任务而不是核心规划模块。例如，在 VAD 中，感知任务消耗了总运行时间的 34.6%，而规划模块仅占 5.7%。
1. 协调复杂性：由于每个任务头都使用不同的目标函数独立优化，并且目标的形状和语义含义各不相同，因此整个系统变得支离破碎，难以进行连贯训练 [5]。
为了解决这些限制，本文提出一种范式 DiffAD，它将所有驾驶任务的优化统一到一个模型中，如图 (b) 所示。具体来说，将感知、预测和规划中的异构目标栅格化到统一的鸟瞰图 (BEV) 空间中，从而将自动驾驶问题重塑为条件图像生成问题之一。

扩散模型，也称为基于分数的生成模型 [14, 39, 42]，在正向（扩散）过程中逐渐将噪声注入数据，并通过反向（去噪）过程从噪声中生成数据。
如图所示，DiffAD 由三个主要组件组成：潜在扩散模型、BEV 特征生成器和轨迹提取网络 (TEN)。
训练过程：
1. 栅格化和潜空间编码：DiffAD 首先将感知、预测和规划目标栅格化为 BEV 图像。然后使用现成的 VAE 编码器将 BEV 图像压缩到潜空间以进行降维。
2. 特征提取和转换：将周围视图图像输入到特征提取器中，该提取器将生成的透视图特征转换为统一的 BEV 特征。
3. 用于噪声预测的扩散模型：将高斯噪声添加到潜 BEV 图像中以获得噪声潜图像。训练扩散模型以根据 BEV 特征预测来自噪声潜表示的噪声。
4. 轨迹提取：训练基于查询的 TEN，从潜 BEV 图像中恢复自我智体的矢量化轨迹。
推理过程：
1. 条件去噪：DiffAD 首先根据 BEV 特征，从纯高斯噪声中生成去噪的潜 BEV 图像。
2. 规划提取：TEN 然后从潜 BEV 图像中提取自智体的规划轨迹。
3. 解码 BEV：通过将潜 BEV 图像解码回像素空间，可以获得预测的 BEV 图像以供解释和调试。
据说开环评估不足以满足 E2E 模型的要求 [19, 26]。为了解决这个问题，用 Bench2Drive 数据集在 CARLA 模拟器中进行训练和闭环评估[8]。Bench2Drive 提供三个数据子集：mini（10 个剪辑用于调试）、base（1,000 个剪辑）和 full（10,000 个剪辑用于大规模研究）。按照 [19] 的方法，用基础子集进行训练。
训练。用来自 Stable Diffusion[36] 的现成预训练变分自动编码器 (VAE) 模型 [23]。VAE 编码器的下采样因子为 8。在所有实验中，扩散模型都在潜空间中运行。保留来自 DiT [34] 的扩散超参。为了促进学习过程，在第一阶段从感知部分（即检测和地图）的单幅图像学习开始，而预测和规划 BEV 图像则用零填充。然后在时间设置中与所有感知、预测和规划部分联合训练模型。
推理。利用 DDIM-10 采样器 [40] 进行推理，并使用官方评估工具 [19] 来计算闭环指标。对于车辆控制，采用官方提供的 PID 控制器。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网：www.zdjszx.com

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。