HE-Drive：利用视觉-语言模型实现类人端到端驾驶

最新推荐文章于 2025-05-17 13:34:47 发布

一点.点

最新推荐文章于 2025-05-17 13:34:47 发布

阅读量709

点赞数 19

分类专栏： # 大模型端到端自动驾驶相关论文阅读文章标签：语言模型人工智能自然语言处理自动驾驶

本文链接：https://blog.csdn.net/qq_54556560/article/details/147973242

版权

大模型端到端自动驾驶相关论文阅读专栏收录该内容

16 篇文章

订阅专栏

《HE-Drive：Human-Like End-To-End Driving With Vision Language Models》2024年10月发表，来自地平线、香港大学、中科院大学和北京交大的论文。

在这篇论文中，我们提出了HE Drive：第一个以人类为中心的端到端自动驾驶系统，可以生成时间一致且舒适的轨迹。最近的研究表明，基于模仿学习的规划者和基于学习的轨迹评分者可以有效地生成和选择接近专家演示的精确轨迹。然而，这些轨迹规划者和记分员面临着生成时间不一致和不舒服的轨迹的困境。为了解决上述问题，我们的HE Drive首先通过稀疏感知提取关键的3D空间表示，然后将其作为基于条件去噪扩散概率模型（DDPM）的运动规划器的条件输入，以生成时间一致性的多模态轨迹。视觉语言模型（VLM）引导的轨迹评分器随后从这些候选者中选择最舒适的轨迹来控制车辆，确保像人一样的端到端驾驶。实验表明，HE Drive不仅在具有挑战性的nuScenes和OpenScene数据集上实现了最先进的性能（即比VAD将平均碰撞率降低71%）和效率（即比SparseDrive快1.9倍），而且在现实世界数据上提供了最舒适的驾驶体验。

研究背景与问题

核心问题：现有端到端自动驾驶系统在轨迹规划中存在时间不一致性（连续预测不稳定）和不舒适性（急刹、转向过度）的缺陷。
原因分析：
1. 时间不一致性：传统模仿学习规划器依赖单帧历史信息，忽视连续预测的关联性，且受限于专家轨迹质量，泛化能力不足。
2. 不舒适性：规则评分器泛化性差，学习评分器在闭环场景中表现不佳，缺乏统一的舒适度度量标准。

方法创新

HE-Drive系统由三个核心组件构成：

稀疏感知模块
- 输入多视角图像，通过视觉编码器提取特征，生成紧凑的3D场景表示（包含动态与静态元素），为后续模块提供空间上下文。
- 基于SparseDrive的稀疏感知方法，提升计算效率。
扩散模型驱动的运动规划器
- 采用条件去噪扩散概率模型（DDPM）生成多模态轨迹，输入条件包括3D场景表示、历史轨迹的速度/加速度/偏航角、自车状态。
- 关键设计：
  - 通过FiLM层将条件信息注入U-Net，引导轨迹生成。
  - 引入历史轨迹的动态参数（速度、加速度），增强时间一致性。
  - 支持多锚点（8个模式）生成，覆盖多样化驾驶决策。
VLM引导的轨迹评分器
- 规则评分器：结合安全成本（碰撞风险、终点距离、航向偏差、速度偏差）与舒适成本（横向/纵向/向心加速度）。
- VLM动态调整：利用Llama 3.2V分析场景（如天气、交通密度），通过视觉问答（VQA）动态调整规则评分器的权重，实现驾驶风格自适应（激进/保守）。
- 优势：结合规则评分器的可解释性与VLM的泛化能力，避免直接依赖VLM决策导致的幻觉风险。

实验与结果

数据集：nuScenes（开放环评测）、OpenScene（闭环评测）、真实世界数据。
主要结论：
1. 性能优势：
  - 在nuScenes上，平均L2误差降低17.8%，碰撞率降低68%，效率达16.1 FPS（比SparseDrive快1.2倍）。
  - 在OpenScene上，综合评分（安全、舒适、进度）超越基线模型（85.2 vs. 83.0）。
2. 舒适性提升：真实数据中3秒轨迹舒适度提升32%，1秒轨迹舒适度达100%。
3. 消融实验：
  - VLM的引入使3秒碰撞率降低2.6倍。
  - 历史轨迹动态参数（速度/加速度）显著提升时间一致性。
  - 多锚点（8个模式）生成效果最优。