端到端自动驾驶前沿论文盘点（pdf+代码）

最新推荐文章于 2025-01-08 12:37:05 发布

深度之眼

最新推荐文章于 2025-01-08 12:37:05 发布

阅读量2.6k

点赞数

分类专栏：人工智能干货深度学习干货文章标签：自动驾驶端到端论文

本文链接：https://blog.csdn.net/weixin_42645636/article/details/132171931

版权

深度学习干货同时被 2 个专栏收录

661 篇文章

订阅专栏

人工智能干货

634 篇文章

订阅专栏

本文探讨了自动驾驶中的端到端架构优势，如通过单一模型实现多模型功能，降低研发成本。重点介绍了几种端到端方法，如策略预训练、基于几何建模、控制预测和空间-时域特征学习。同时，文章涵盖了深度学习在自动驾驶中的进展、挑战和可解释性的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现在的自动驾驶，大多数还是采用的模块化架构，但这种架构的缺陷十分明显：在一个自动驾驶系统里，可能会包含很多个模型，每个模型都要专门进行训练、优化、迭代，随着模型的不断进化，参数量不断提高，所需的研发人员也跟着涨，研发成本自然居高不下。

而端到端架构的优势在于，只通过一个模型就实现了以上多种模型的功能，因此我们只需要调整训练这一个模型，就能大大提高性能，这让我们可以更好地集中资源，实现功能聚焦。

为此，端到端架构的研究一直是自动驾驶领域的热门方向，我这次也收集整理了36篇端到端自动驾驶论文来和大家分享，原文+代码已打包，文末领取

端到端（5）

Policy Pre-Training for End-to-End Autonomous Driving via Self-Supervised Geometric Modeling

标题：通过自监督几何建模进行端到端自动驾驶的策略预训练

内容：作者提出了PPGeo(基于几何建模的策略预训练)，这是一个直观和直接的完全自监督框架，用于视运动驾驶中的策略预训练。作者的目标是通过对大规模无标注和无标定的YouTube驾驶视频进行3D几何场景建模，将策略表示学习为一个强大的抽象。所提议的PPGeo分两个阶段执行，以支持有效的自监督训练。在第一阶段，几何建模框架同时生成姿态和深度预测，以两个连续帧为输入。在第二阶段，视觉编码器通过仅基于当前视觉观察预测未来自身运动来学习驾驶策略表示，并通过光度误差进行优化。如此，预训练的视觉编码器配备了丰富的驾驶策略相关表示，从而能够胜任多个视运动驾驶任务。

Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline

标题：基于轨迹指导的端到端自动驾驶控制预测：一个简单但强大的基准

内容：当前的端到端自动驾驶方法要么基于规划的轨迹运行控制器，要么直接进行控制预测，这两种方法构成了两个相对独立的研究方向。考虑到两者之间的潜在互补优势，本文首次探索将这两个成熟的世界结合起来。具体而言，作者的集成方法分别有轨迹规划和直接控制两支。轨迹分支预测未来轨迹，控制分支采用新颖的多步预测方案，以推理当前行为与未来状态之间的关系。两支相连，使控制分支在每个时间步都从轨迹分支获得相应指导。然后将两支的输出融合以实现互补优势。作者在封闭环城市驾驶环境中评估结果，使用CARLA模拟器中的具有挑战性的场景。即使只使用单目摄像头输入，所提方法也位居CARLA排行榜第一，大幅领先其他使用多传感器或多融合机制的复杂方法。

ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning

标题：基于空间-时域特征学习的端到端基于视觉的自动驾驶(ST-P3)

内容：作者提出了一个空间-时域特征学习方案，以同时获得感知、预测和规划任务更具代表性的一组特征，称为ST-P3。具体而言，在进行鸟瞰图变换用于感知之前，作者提出了一种以自身为中心的累积技术来保留3D空间中的几何信息。为了进行未来预测，作者设计了一种双通道建模方法来考虑过去的运动变化，作者引入了一种基于时间的精炼单元来补偿规划中的基于视觉的元素的识别。

Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients

标题：城市司机：使用策略梯度从真实世界演示中学习驾驶

内容：本文首次提出了一个离线策略梯度方法，用于从大规模真实世界演示中学习复杂城市驾驶的模仿策略。这是通过在感知输出和该区域的高保真高清地图之上构建一个可微分的数据驱动模拟器来实现的。它允许我们使用中间表示从现有演示中合成新的驾驶体验。使用这个模拟器，在闭环中采用策略梯度训练一个策略网络。作者在城市道路上训练了提出的方法，结果表明它学习到了复杂的驾驶策略，并表现出很好的泛化能力，能够执行各种驾驶机动操作。

MP3: A Unified Model to Map, Perceive, Predict and Plan

标题：MP3：一个统一的模型进行映射、感知、预测和规划

内容：作者提出了MP3，这是一种端到端的无地图驾驶方法，其输入是原始传感器数据和高级命令(例如，在交叉路口左转)。MP3预测中间表示，包括在线地图和当前及未来的动态代理状态，并在新颖的神经运动规划器中利用它们做出可解释的决策，同时考虑不确定性。与基准和大规模真实世界数据集中的专家驾驶相比，作者的方法在复杂的长期闭环模拟中明显更安全、更舒适，并且可以更好地遵循命令。

综述（3）

Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey

标题：最近端到端自动驾驶技术中深度学习的进展：一项调研

内容：本文全面回顾了端到端的自动驾驶技术栈，它提供了一个自动驾驶任务的分类，其中神经网络已经以端到端的方式被使用，涵盖从感知到控制的整个驾驶过程，同时解决实际应用中遇到的关键挑战，分析了端到端自动驾驶的最新发展，并根据基本原理、方法和核心功能对研究进行分类。

End-to-end Autonomous Driving: Challenges and Frontiers

标题：端到端自动驾驶：挑战与前沿

内容：在本论文中，作者对250多篇论文进行了全面分析，涵盖了端到端自动驾驶的动机、路线图、方法、挑战和未来趋势。作者深入探讨了几个关键挑战,包括多模态、可解释性、因果混淆、鲁棒性和世界模型等。此外，还讨论了基础模型和视觉预训练的当前进展，以及如何在端到端驾驶框架内部署这些技术。

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe

标题：深入研究鸟瞰视角感知的难点:综述、评估与指南

内容：本调研回顾了BEV感知的最新工作，并对不同解决方案进行了深入分析。此外，还描述了几种系统的BEV方法设计。作者还提供了全面的实用指南，以提高BEV感知任务的性能，包括摄像头、激光雷达和融合输入。最后，作者指出了该领域的未来研究方向。

可解释性（13）

Planning-oriented Autonomous Driving Best Paper
Multi-Modal Fusion Transformer for End-to-End Autonomous Driving
Learning Situational Driving
Learning from All Vehicles
Policy Pre-training for Autonomous Driving via Self-supervised Geometric Modeling
NEAT: Neural Attention Fields for End-to-End Autonomous Driving
TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving
Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer
PlanT: Explainable Planning Transformers via Object-Level Representations
Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning
Hidden Biases of End-to-End Driving Models
Scaling Self-Supervised End-to-End Driving with Multi-View Attention Learning

模仿学习（11）

Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving
Learning by Watching
Policy Pre-training for Autonomous Driving via Self-supervised Geometric Modeling
End-to-End Urban Driving by Imitating a Reinforcement Learning Coach
Hidden Biases of End-to-End Driving Models
Scaling Self-Supervised End-to-End Driving with Multi-View Attention Learning
Learning by Cheating
SAM: Squeeze-and-Mimic Networks for Conditional Visual Driving Policy Learning
Urban Driving with Conditional Imitation Learning
Learning to Drive from Simulation without Real World Labels
Multimodal End-to-End Autonomous Driving

行为克隆（3）

KING: Generating Safety-Critical Driving Scenarios for Robust Imitation via Kinematics Gradients
Learning to Drive by Watching YouTube Videos: Action-Conditioned Contrastive Policy Pretraining
Exploring the Limitations of Behavior Cloning for Autonomous Driving

关注下方【学姐带你玩AI】🚀🚀🚀

回复“端到端”免费领取全部论文+代码合集

码字不易，欢迎大家点赞评论收藏！