挑战赛冠军方案!英伟达最新 | Hydra-MDP:端到端多模态规划方法

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

编辑 | 自动驾驶之心

原标题:Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation

论文链接:https://arxiv.org/pdf/2406.06978

代码链接:https://github.com/NVlabs/Hydra-MDP

作者单位:NVIDIA 复旦大学 华东师范大学 北京理工大学 南京大学 南开大学

The 1st place solution of End-to-end Driving at Scale at the CVPR 2024 Autonomous Grand Challenge

62020cad4f0bdea79632cd6909ea518d.png

论文思路

本文提出了Hydra-MDP,这是一种在教师-学生模型中采用多个教师的新范式。该方法利用来自人类和基于规则的教师的知识蒸馏来训练学生模型,该模型具有多头解码器,以学习适应各种评估指标的多样化轨迹候选方案。通过基于规则的教师的知识,Hydra-MDP能够以端到端的方式学习环境如何影响规划,而不是依赖于不可微分的后处理方法。该方法在Navsim挑战赛中获得了第一名,展示了在不同驾驶环境和条件下显著的泛化能力提升。

主要贡献:

  1. 本文提出了一种通过多目标Hydra蒸馏实现端到端多模态规划的通用框架,该框架允许模型以可扩展的方式从基于规则的规划器和人类驾驶员中学习。

  2. 本文的方法在Navsim的基于仿真的评估指标下达到了最先进的性能。

论文设计:

端到端自动驾驶,即通过原始传感器输入来学习神经规划器,被认为是实现完全自动驾驶的有前途方向。尽管该领域取得了令人鼓舞的进展[11, 12],但最近的研究[4, 8, 14]揭示了模仿学习(IL)方法的多种脆弱性和局限性,特别是在开环评估中的固有问题,如失效的评估指标和隐含偏差[8, 14]。这些问题至关重要,因为它们无法保证安全性、效率、舒适性和遵守交通规则。为了解决这一主要局限性,若干研究提出了引入闭环评估指标,这些指标通过确保机器学习的规划器满足基本标准,而不仅仅是模仿人类驾驶员,从而更有效地评估端到端自动驾驶。

因此,端到端规划理想情况下是一个多目标和多模态任务,其中多目标规划涉及满足来自开环和闭环设置的各种评估指标。在这种情况下,多模态表示每个指标存在多个最优解决方案。

现有的端到端方法[4, 11, 12]通常试图通过后处理来考虑闭环评估,这种方法不够简化,并且相比于完全端到端的流程可能导致额外信息的丢失。同时,基于规则的规划器[8, 18]在处理不完美的感知输入时表现不佳。这些不完美的输入会降低基于规则的规划在闭环和开环评估指标下的性能,因为它们依赖于预测的感知结果而非真实标签(GT)。

为了解决这些问题,本文提出了一种新的端到端自动驾驶框架,称为Hydra-MDP(多目标Hydra蒸馏的多模态规划)。Hydra-MDP基于一种新的教师-学生知识蒸馏(KD)架构。学生模型通过从人类和基于规则的教师那里进行知识蒸馏,学习适应各种评估指标的多样化轨迹候选方案。本文通过多头解码器实现了多目标Hydra蒸馏,从而有效整合了来自专业教师的知识。Hydra-MDP还具有可扩展的KD架构,允许轻松集成额外的教师。

学生模型在训练期间使用环境观测数据,而教师模型使用真实标签(GT)数据。这样的设置使得教师模型能够生成更好的规划预测,帮助学生模型有效学习。通过使用环境观测数据训练学生模型,它能够在测试期间无法获得GT感知数据的真实条件下灵活应对。

93cc8658f75a3e5bdcaa3e0d3f8eae46.png

图1. 端到端规划范式的比较。

fa930d4bf54543075de15aeebd53b3f2.png

图2. Hydra-MDP的整体架构。

整体框架

如图2所示,Hydra-MDP由两个网络组成:感知网络和轨迹解码器。

感知网络。本文的感知网络基于官方挑战基线Transfuser [5, 6],该基线由图像主干网络、LiDAR主干网络以及用于3D目标检测和鸟瞰图(BEV)分割的感知头组成。多个Transformer层 [19] 连接两个主干网络的不同阶段的特征,从不同模态中提取有意义的信息。感知网络的最终输出包括环境tokens ,这些tokens编码了从图像和LiDAR点云中提取的大量语义信息。

轨迹解码器。依据Vadv2 [4],本文构建了一个固定的规划词汇表,以离散化连续的动作空间。为了构建该词汇表,本文首先从原始的nuPlan数据库 [2] 中随机采样了70万条轨迹。每条轨迹  包含40个时间戳的 ,对应于挑战中所需的10Hz频率和4秒的未来时间范围。规划词汇表  由这70万条轨迹的K均值聚类中心形成,其中  表示词汇表的大小。然后将  嵌入为  个潜在查询,通过一个MLP发送到若干层Transformer编码器[19],并添加到自车状态  中:

7c1b56cfcbe8f408ad689c8f92635d16.png

为了在  中融合环境线索,采用了Transformer解码器:

164a31d6aebe8d02b7c3169c9e106919.png

利用日志重放轨迹 ,本文实现了基于距离的交叉熵损失,以模仿人类驾驶员:

f1ea4a1dc8e331f2d69bf75fcce3d4d5.png

其中, 是  的第  个 softmax 得分, 是通过日志重放轨迹和词汇表之间的L2距离生成的模仿目标。Softmax 应用于 L2 距离以生成概率分布:

d4af05dce74970ef95f7de80409e04c3.png

这种模仿目标的直觉在于奖励那些接近人类驾驶行为的轨迹提议。

多目标Hydra蒸馏

尽管模仿目标为规划器提供了一定的线索,但在闭环设置下,这不足以使模型将规划决策与驾驶环境关联起来,导致碰撞和驶出可行驶区域等失败 [14]。因此,为了提高本文端到端规划器的闭环性能,本文提出了多目标Hydra蒸馏,这是一种将规划器与本次挑战中的基于仿真的指标对齐的学习策略。

蒸馏过程通过两个步骤扩展学习目标:(1)对整个训练数据集运行规划词汇表  的离线仿真 [8];(2)在训练过程中引入每条轨迹在  中的仿真得分监督。对于给定的场景,步骤1为每个指标  和第  条轨迹生成真实的仿真得分 ,其中  表示挑战中使用的闭环指标集合。为了进行得分预测,潜在向量  通过一组Hydra预测头处理,生成预测得分 。通过二元交叉熵损失,本文将基于规则的驾驶知识蒸馏到端到端规划器中:

对于轨迹 ,其每个子得分的蒸馏损失在(原文) Eq. 4 中作为一个学习到的成本值,衡量与该指标相关的特定交通规则的违反情况。

推理与后处理

推理

给定预测的模仿得分  和指标子得分 ,本文计算一个组合成本,用于衡量每条轨迹在给定场景中被选择的可能性,如下所示:

a5cdf4e987d407766aa0449f7245ae02.png

其中  代表置信度加权参数,以缓解不同教师不完美拟合的问题。权重的最佳组合通过网格搜索获得,通常在以下范围内:,,,这表明有必要优先考虑基于规则的成本而非模仿。最终,选择总成本最低的轨迹。

模型集成

本文提出了两种模型集成技术:编码器混合和子得分集成。前者使用线性层来组合来自不同视觉编码器的特征,而后者通过计算独立模型的子得分的加权和来进行轨迹选择。

实验结果:

cd138b3f4081383b8a54eedb71f0228b.png

表 1. Navtest Split 的性能表现。⋄ 由于制动动作的不一致和相较于 nuPlan 实现的偏移公式,官方的 PDM-Closed Navsim 实现可能容易出错。所有端到端方法都使用官方的 Transfuser [5] 作为感知网络。* 本文的基于距离的模仿损失用于训练。PP:Transfuser 感知用于后处理。PDM:学习目标是整体 PDM 分数。W:推理时的加权置信度。EP:模型训练以拟合连续的 EP(自我进展)指标。

de64c7dd18029fcd932f2a64fcd53bda.png

表 2. 扩展(Scaling Up)对 Navtest Split 的影响。⋄ 官方的 PDM-Closed Navsim 实现。* ViT-L 从 Depth Anything [20] 初始化。†ViT-L 是在 Objects365 [17] 和 COCO [15] 上预训练的 EVA [9]。V2-99 [13] 从 DD3D [16] 初始化。

引用:

@article{li2024hydra,
  title={Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation},
  author={Li, Zhenxin and Li, Kailin and Wang, Shihao and Lan, Shiyi and Yu, Zhiding and Ji, Yishen and Li, Zhiqi and Zhu, Ziyue and Kautz, Jan and Wu, Zuxuan and others},
  journal={arXiv preprint arXiv:2406.06978},
  year={2024}
}

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

53ffedbf3024e18b2768acc3e32baa68.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

e035951c0e1365f988f1c66bf91b2dee.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

683d7ee2391b1a2a207c0a3448607203.jpeg

④【自动驾驶之心】全平台矩阵

1976ab81948339c29020933159d110b2.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值