入行端到端自动驾驶必读的18篇论文｜大佬强推

自动驾驶打工人

于 2024-07-23 14:27:10 发布

阅读量481

点赞数 13

文章标签：自动驾驶人工智能端到端 E2E paper

本文链接：https://blog.csdn.net/NEON7788/article/details/140635377

版权

入行端到端自动驾驶必读的18篇论文｜大佬强推

附赠自动驾驶最全的学习资料和量产经验：链接

2024年，自动驾驶领域的“当红炸子鸡”非「端到端」莫属。从去年8月特斯拉发布FSD V12版本以来，全球的智驾前锋们都几乎开始all in「端到端」。而在不久前4月北京车展上，马斯克的惊喜亮相，也让业界看到了率先使用端到端方案的FSD入驻中国的可能。

「端到端」对传统分模块化的技术栈端发起挑战，一场新的行业变局一触即发，工程师们又如何在这个风口看清方向才能不被淘汰？

深蓝学院邀请复旦大学青年研究员丁文超老师，盘点了6个大类、共18篇端到端自动驾驶方向的必读paper，希望能帮助到各位智驾人！

（如我们的盘点有所疏漏，也欢迎各位阅读指正，不甚感激）

++End-to-end autonomous driving：Challenges and frontiers++

作者：Li Chen, Penghao Wu, Kashyap Chitta, et al.

◆主要内容

本文是上海OpenDriveLab自动驾驶团队发表在CVPR23上的一篇综述。该团队研究涵盖了自动驾驶大模型，端到端自动驾驶，BEV感知，通用人工智能等多个研究方向。众所周知，由同一团队发表的UniAD相关论文，不仅获得了2023年度CVPR最佳论文奖，更是燃起了学术界和工业界对端到端自动驾驶（End-to-End AD）研究和落地的热情。

自动驾驶领域见证了端到端算法框架的快速发展，这些框架利用原始传感器输入生成车辆运动计划，而不只是专注于如检测和预测决策等个别任务。与传统的模块化流水线相比，端到端系统在感知和规划的联合特征化方面具有优势。这一领域的发展得益于大规模数据集的可用性、闭环评估和自动驾驶算法在挑战性场景中有效性需求的增加。在本次研究中，上海Open DriveLab团队则调查了250多篇有关于端到端自动驾驶的论文，从自动驾驶动机、路线图、方法、挑战和未来趋势等多个方面进行了全面分析，让我们有机会了解目前端到端自动驾驶所面临的挑战和研究趋势，也为学术研究和工业落地提供了参考方向。此外，本文还讨论了基础模型和视觉预训练的当前进展，以及如何将这些技术整合到端到端驾驶框架中。

++ADAPT：Action-aware Driving Caption Transformer++

作者：Bu Jin, Xinyu Liu, Yupeng Zheng, et al.

◆主要内容

端到端自动驾驶在交通行业中具有巨大潜力。然而，自动决策过程缺乏透明度和可解释性，这阻碍了其在实际工业中的应用。为了提高模型的可解释性，曾有过许多研究通过使用Attention Maps（注意力可视化）或Cost volume（代价体积）来达到目的，但这些依旧不够通用。为了弥补这一差距，本文提出了一种基于Transformer的端到端架构，名为ADAPT（Action-aware Driving cAPtion Transformer），它为自动驾驶车辆的每个决策和动作步骤提供了「用户友好」的自然语言叙述和推理。ADAPT通过共享视频表示联合训练驾驶字幕任务和车辆控制预测任务。在BDD-X（Berkeley DeepDrive eXplanation）数据集上的实验表明，ADAPT框架在自动指标和人类评估方面都表现出了最先进的性能。为了展示所提出框架在现实世界应用中的可行性，研究者们还构建了一个新颖的可部署系统——以原始汽车视频为输入，实时输出动作叙述和推理。

++ALVINN：An Autonomous Land Vehicle in a Neural Network++

作者：Dean A. Pomerleau

◆主要内容

这篇论文发布于1988年，是一篇关于神经网络在自动驾驶领域应用的经典论文，作者是Dean A. Pomerleau，来自卡内基梅隆大学计算机科学系。本文提出的ALVINN是一个3层反向传播网络，用于道路跟随任务。ALVINN接收来自摄像头和激光测距仪的图像作为输入，并输出车辆为跟随道路应行驶的方向。其中，输入层分为三组单元：两个“视网膜”和一个强度反馈单元。输出层由46个单元组成，分为两组。一组45个单元是车辆应行驶的转弯曲率的线性表示，中间单元代表“直行”条件，而左右两侧的单元代表越来越急的左右转弯。网络训练时，期望的输出向量除了表示正确转弯曲率的单元外全部为零。

研究者们使用模拟道路图像对其进行了训练，训练过程使用了1200个道路快照，这些快照描绘了在各种视网膜方向和位置、不同光照条件和真实噪声水平下的道路。此外，研究者们海在卡内基梅隆大学的自主导航测试车辆上成功进行了测试，测试结果表明该网络能够在特定现场条件下有效跟随真实道路。当在不同条件下进行训练时，其开发的表示形式也就大不相同，这表明存在着一种新型的自适应自主导航系统的可能性，该系统能够根据当前条件定制其处理方式。

++End to end learning for self-driving cars++

作者：Mariusz Bojarski, Davide Del Testa, Daniel Dworakowski, et al.

◆主要内容

研究者们训练了一个卷积神经网络（CNN），将单个前向摄像头捕获的原始像素直接端到端地映射到转向命令。相关系统仅需极少的训练数据（如不到一百小时的驾驶数据），就能学习如何在「有或没有车道标记的本地道路和高速公路上驾驶」，并且也能在如停车场和未铺砌道路上这些视觉引导不清晰的区域操作。可见，CNN能够从非常稀疏的训练信号（仅转向）中学习到有意义的道路特征。与显式的问题分析（如车道标记检测、路径规划和控制）相比，端到端系统同时优化了整个过程中的所有处理步骤。彼时这项研究给智驾系统学习适应道路特征带来了极大的便利。

++Learning to drive in a day++

作者：Alex Kendall, Jeffrey Hawke, David Janz, et al.

■主要内容

本文展示了深度强化学习在自动驾驶领域的首次应用，作者认为强化学习的通用性使其成为应用于自动驾驶的有用框架。本文提出了一种将自动驾驶作为MDP的设置，定义了状态空间、动作空间和奖励函数，并展示了如何使用现成的深度强化学习算法DDPG来解决自动驾驶问题。我们讨论了如何提高网络的鲁棒性、验证鲁棒性的方法以及改善网络内部处理步骤的可视化所需的进一步工作。从随机初始化的参数开始，本文的模型就能够仅使用单个单目图像作为输入，在少数几个训练周期内习得车道跟随的策略。这项工作提供了一种通用且易于获得的奖励：车辆在安全驾驶员接管前行驶的距离。此外，研究者们还使用了一种连续的、无需模型的深度强化学习算法，其中所有的探索和优化都在车辆上完成。这展示了一种新的自动驾驶框架，它不再依赖于定义好的逻辑规则、映射和直接监督。本篇paper入选了ICRA2019，所属团队为Wayve。

++TransFuser：Imitation with Transformer-Based Sensor Fusion for Autonomous Driving++

作者：Kashyap Chitta, Aditya Prakash, Bernhard Jaeger, et al.

◆主要内容

本作研究者发现：在端到端驾驶的背景下，基于现有传感器融合方法的模仿学习在动态代理密度高的复杂驾驶场景中表现不佳。因此，他们提出了一种名为TransFuser的新型自动驾驶感知系统，这是一种使用自注意力来整合图像和激光雷达表示的机制。该方法使用多分辨率下的变换器模块来融合透视图和鸟瞰图特征图，并通过自注意力机制整合来自不同传感器的信息，以实现更安全、更可靠的自动驾驶。研究者们在CARLA模拟器中进行了训练和测试，提出了Longest6基准测试，包括长路线和高密度交通的挑战，并在CARLA官方排行榜上进行了评估。最终得出：TransFuser在所有先前工作的基础上显著提高了驾驶得分，它相较于基于几何融合的方法，在减少碰撞方面表现出色，降低了48%的平均碰撞率。TransFuser证明了在复杂驾驶场景中，基于现有传感器融合方法的模仿学习策略存在高违规率。

++Panoptic SegFormer：Delving Deeper into Panoptic Segmentation with Transformers++

作者：Zhiqi Li, Wenhai Wang, Enze Xie, et al.

◆主要内容

全景分割是一项结合了语义分割和实例分割的任务，将图像内容分为“事物”和“区域”两种类型。本文提出了Panoptic SegFormer，一个基于变换器的全景分割通用框架。该框架包含三个创新组件：高效的深度监督掩码解码器、查询解耦策略和改进的后处理方法。研究团队还使用了一个快速高效的DETR版本「Deformable DETR」来高效处理多尺度特征。此外，研究者们还在掩码解码器中的注意力模块上进行了逐层监督。这种深度监督策略让注意力模块能快速聚焦于有意义的语义区域，提高性能，并将所需训练周期减半。本框架的查询解耦策略将查询集的职责解耦，避免了事物和区域之间的相互干扰。此外，该方法的后处理策略通过联合考虑分类和分割质量来解决冲突的掩码重叠，提高了性能而无需额外成本。研究人员在COCO和ADE20K数据集上评估了Panoptic SegFormer，并与多种最新方法进行了比较，展示出更强的零样本鲁棒性：他们提供了全景分割和实例分割的主要结果，并进行了详细的消融研究以验证每个模块的效果——与基线DETR模型相比，本作方法将PQ提高了6.2%。全景SegFormer在COCO test-dev上取得了56.2% PQ的最先进结果。

++Planning-oriented Autonomous Driving++

作者：Yihan Hu, Jiazhi Yang, Li Chen1, et al.

◆主要内容

本文介绍了现代自动驾驶系统的特点，包括感知、预测和规划等模块化任务；提出了一个名为UniAD的综合框架，该框架将全栈驾驶任务整合到一个网络中，以提高任务间的协调性、减少累积误差。该框架利用每个模块的优势，并从全局角度为代理交互提供互补的特征抽象。通过广泛的消融实验，本作研究者们证明了使用这种理念的有效性，该框架在所有方面都大大优于先前的最先进技术。此外，本项工作还讨论了深度学习在自动驾驶算法中的应用，包括检测、跟踪、映射、运动和占用预测等任务。指出了现有方法的局限性，如信息丢失、错误累积和特征不对齐，并强调了规划导向的重要性。

++BEVFormer：Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers++

作者：Zhiqi Li, Wenhai Wang, Hongyang Li, et al.

◆主要内容

基于多摄像头图像的3D视觉感知任务，包括3D检测和地图分割，对自动驾驶系统至关重要。本文提出了一个名为BEVFormer的新框架，该框架利用时空变换器学习统一的BEV表示，以支持自动驾驶系统中的多个感知任务。BEVFormer通过预定义的BEV查询与空间和时间进行交互，聚合时空信息，从而为感知任务提供更强的表示。该方法在nuScenes测试集上达到了56.9%的NDS指标新最佳水平，比之前的最佳方法高出9.0个百分点，与基于激光雷达的基线性能相当。实验还证明，BEVFormer可以使用多摄像头输入的时空信息来显著提高视觉感知模型的性能。尽管基于摄像头的方法在效果和效率上仍有一定差距，但BEVFormer的优势，如更准确的速度估计和对低可见物体的更高召回率，对于构建更好、更安全的自动驾驶系统至关重要。

++MOTR：End-to-End Multiple-Object Tracking with Transformer++

作者：Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang, Xiangyu Zhang, Yichen Wei

◆主要内容

对象的时间建模是多目标跟踪（MOT）中的一个关键挑战。现有方法通过基于运动和外观的相似性启发式来关联检测。然而，后处理阶段的关联阻碍了视频序列中时间变化的端到端利用。本文提出了MOTR，它扩展了DETR并引入了「Track query」来对整个视频中的跟踪实例进行建模。其中，Track query逐帧传递和更新以进行时间上的迭代预测。此外，研究者们还提出了轨迹感知的标签分配策略来训练轨迹查询和新生对象查询，并提出了时间聚合网络和集体平均损失来增强时间关系建模。通过在DanceTrack数据集上进行实验，研究者们发现MOTR在HOTA指标上显著优于最先进的ByteTrack方法6.5%。在MOT17数据集上，MOTR在关联性能上优于原作同时期的作品TrackFormer和TransTrack。MOTR可以作为未来时间建模和基于Transformer跟踪器研究的一个更强基线。然而，MOTR也有一些不足之处，例如新对象的检测性能远非令人满意，以及在训练期间的查询传递是逐帧进行的，限制了模型学习的效率。

++VADv2：End-to-End Vectorized Autonomous Driving via Probabilistic Planning++

作者：Shaoyu Chen*, Bo Jiang*, Hao Gao, et al.

◆主要内容

从大规模的驾驶演示中学习类人驾驶策略是极具前景的，但规划的不确定性和非确定性特征也使得这一技术存在极大的挑战。为了应对这一问题，本研究提出了VADv2：一款基于概率规划的端到端驾驶模型。VADv2以流式方式接收多视图图像序列作为输入，将传感器数据转换为环境标记嵌入，输出动作的概率分布，并采样一个动作来控制车辆。仅使用相机传感器，VADv2就能在CARLA Town05基准测试中实现了最先进的闭环性能，显著优于所有现有方法。即使没有基于规则的包装器，它也能以完全端到端的方式稳定运行。然而，VADv2在更复杂的现实世界场景中的有效性尚未探索，未来还需进一步研究。

++PARA-Drive：Parallelized Architecture for Real-time Autonomous Driving++

作者：Xinshuo Weng, Boris Ivanovic, Yan Wang, Yue Wang, Marco Pavone

◆主要内容

最近很多研究提出了由可区分模块组成的端到端自动驾驶汽车（AV）架构，实现了最先进的驾驶性能。与传统的感知-预测-规划架构相比，端到端架构更具有优势（例如，消除了组件之间的信息瓶颈，减轻了模块集成的挑战），但是端到端架构仍然使用传统架构的模块和任务组合。然而，迄今为止还没有研究系统地分析过这些模块的必要性或它们的连接关系、排列顺序和内部表示对整体驾驶系统性能的影响。

针对上述空白，本研究对端到端自动驾驶汽车架构的设计空间进行了全面探索。作者的研究成果最形成了PARA-Drive1 ：一种完全并行的端到端自动驾驶架构。PARA-Drive不仅在感知、预测和规划方面达到了最先进的性能，而且在不影响可解释性或安全性的前提下，将运行速度显著提高了近3倍。

本项工作由Nvidia和南极洲大学、斯坦福大学联合提出，是一篇入选CVPR24的最新SOTA。

++VAD：Vectorized Scene Representation for Efficient Autonomous Driving++

作者：Bo Jiang*, Shaoyu Chen*, Qing Xu, et al.

◆主要内容

自动驾驶需要对周围环境有全面的理解才能进行可靠的轨迹规划。以往的工作多依赖于密集的栅格化场景表示（如代理占用和语义地图）来进行规划，这种方法计算量大且遗漏了实例级别的结构信息。本文提出了VAD，一种端到端的矢量化自动驾驶范式，它将驾驶场景建模为完全矢量化的表示。

所提出的矢量化范式具有两个显著优势：一方面，VAD利用矢量化的代理运动和地图元素作为明确的实例级规划约束，有效提高了规划安全性；另一方面，VAD通过摒弃计算密集型的栅格化表示和手工设计的后处理步骤，加快了端到端规划方法运行速率。

VAD在nuScenes数据集上实现了最先进的端到端规划性能，大幅优于此前的最佳方法。本文的基线模型VAD-Base将平均碰撞率大幅降低了29.0%，运行速度提高了2.5倍。此外，其轻量级变体VAD-Tiny在保持相当的规划性能的同时，极大地提高了推理速度（高达9.3倍）。VAD的卓越性能和高效率对于自动驾驶系统的现实世界部署至关重要。

本工作是VADv2的前身，研究团队同属华中科技大学和Horizon Robotics，入选了ICCV2023。

++Rethinking the open-loop evaluation of end-to-end autonomous driving in nuscenes++

作者：Jiang-Tian Zhai, Ze Feng, Jinhao Du, et al.

◆主要内容

现代自动驾驶系统通常分为三个主要任务：感知、预测和规划。规划任务涉及基于内部意图和外部环境的输入预测自车轨迹，并据此来操纵汽车。目前，大多数现有工作使用L2误差和预测轨迹与真实轨迹之间的碰撞率来评估他们在nuScenes数据集上的性能。在本文中，研究者们重新评估了这些现有的评估指标，并探讨了它们是否能够准确衡量不同方法的优越性。具体而言，研究者们设计了一种基于多层感知机（MLP）的方法，该方法以原始传感器数据（如过去的轨迹、速度等）作为输入，并直接输出自动驾驶汽车的未来轨迹，而无需使用任何感知或预测信息，如相机图像或激光雷达数据。这种简单的方法在nuScenes数据集上实现了与其他基于感知的方法相似的端到端规划性能，将平均L2误差降低了约20%。同时，基于感知的方法在碰撞率方面也极具优势。作者通过进一步深入分析，对nuScenes数据集上规划任务成功的关键因素提供了新的见解。通过大量的实验与观察，研究者们发现尽管该模型在nuScenes数据集上表现良好，但它只是一个不切实际的玩具，无法在现实世界场景中发挥作用。研究者们提出，需要重新思考当前nuScenes中端到端自动驾驶的开环评估方案。

++Reasonnet：End-to-end driving with temporal and global reasoning++

作者：Hao Shao, Letian Wang, Ruobing Chen, Steven L. Waslander, Hongsheng Li, Yu Liu

◆主要内容

自动驾驶汽车的大规模部署尚待时日，而剩余的主要挑战之一在于城市密集交通场景。在这种情况下，预测场景的未来演变和物体的未来行为，以及处理罕见的不利事件（如遮挡物体的突然出现）仍然具有挑战性。文章提出了一个名为ReasonNet的新型端到端自动驾驶框架，它通过时间推理（Temporal Reasoning）和全局推理（Global Reasoning）来增强对驾驶场景的理解和预测。通过分析物体历史上的行为，ReasonNet能够更好地处理不同帧之间特征的交互和关系，从而预测场景的演变和物体的未来行为。此外，通过分析场景中物体和环境之间的全局信息和交互，ReasonNet能够提高对整体场景的感知性能，并有助于检测不利事件，尤其是预测遮挡物体的潜在危险。为了全面评估遮挡事件，本文还公开发布了一个驾驶模拟基准测试DriveOcclusionSim，包含多种遮挡事件。在多个CARLA基准测试中，ReasonNet模型超越了之前所有的方法，在公共CARLA自动驾驶排行榜上排名第一。

总的来说，ReasonNet通过直接从传感器读取数据到生成控制命令，简化了自动驾驶系统的开发流程，为自动驾驶领域的发展做出了重要贡献。

++Unisim：A neural closed-loop sensor simulator++

作者：Ze Yang, Yun Chen, Jingkang Wang, et al.

◆主要内容

为了确保自动驾驶汽车（SDV）的安全性，需要对其进行严格的测试。这需要人们生成超越现实世界中安全收集范围的安全关键场景，但现实中很难安全地收集到这些场景的数据。本文提出了UniSim，一个神经传感器模拟器，它能够利用单一记录的日志数据，转换成现实的闭环多传感器模拟。UniSim通过构建神经特征网格来重建场景中的静态背景和动态行为者，并合成它们以模拟新的视点的LiDAR和相机数据。UniSim允许对场景中的元素进行编辑和控制，比如可以添加或移除车辆，改变它们的轨迹，或者测试新的自动驾驶轨迹。此外，UniSim使用多分辨率体素基础的神经场来表示和组合静态场景和动态代理，通过体积渲染特征图来形成最终的图像。为了更好地处理外推视图，研究者们为动态对象引入了可学习的先验知识，并利用卷积网络来完成看不见的区域。实验表明，UniSim在模拟传感器数据方面具有较小的域差距，这意味着它生成的数据与现实世界中的数据非常接近，有助于提高自动驾驶系统的感知和决策能力。并且，UniSim还能够进行闭环评估，即自动驾驶系统可以在模拟环境中接收新的传感器数据并做出反应，比如在模拟场景中改变车道。

总体而言，UniSim是首个能够从单一记录的日志中生成闭环多传感器模拟的神经模拟器，这在技术上是一个重大突破。与在现实世界中收集数据相比，UniSim提供了一种成本更低、效率更高的测试和开发自动驾驶系统的方法，极大地推动了自动驾驶技术的发展和应用。

++Is ego status all you need for open-loop end-to-end autonomous driving？++

作者：Zhiqi Li, Zhiding Yu, Shiyi Lan, Jiahan Li, Jan Kautz, Tong Lu, Jose M. Alvarez

◆主要内容

最近，端到端自动驾驶技术已然成为了从全栈角度实现自动驾驶的最有前景的研究方。沿着这一方向，许多最新研究在nuScenes上遵循开环评估设置，以研究规划行为。在本文中，作者们对现有自动驾驶方法进行了深入分析，揭示了依赖自车状态信息可能导致的问题。

最初，研究人员观察到，在nuScenes数据集中，由于很多场景都是直接行驶的情况，现有的端到端自动驾驶模型往往只依赖自车状态信息来做决策，而没有充分利用感知信息。这些模型往往依赖自我车辆的状态来进行未来路径规划。

除了数据集的局限性之外，工作人员还注意到现有的评估指标（如预测轨迹与实际轨迹的L2距离和碰撞率）可能无法全面评估规划质量，这可能导致从现有基准测试中得出可能存在偏差的结论。为了解决这一问题，他们引入了一种新的评估指标——与道路边界的交叉率（Intersection Rate with Road Boundary）。

基于该指标，研究者们进一步提出了一个不依赖感知注释的简单基线模型（BEV-Planner），在竞争结果上与现有方法相当。鉴于当前基准和评估指标的局限性，原作建议学者们可以重新评估当前自动驾驶研究中的一些普遍假设，谨慎考虑继续追求所谓“最先进”的研究是否会得出令人信服且普遍适用的结论。

本文由南京大学软件新技术国家重点实验室与Nvidia联合发布，近期入选了CVPR24。

++CARLA：An Open Urban Driving Simulator++

作者：Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez, Vladlen Koltun

◆主要内容

这篇paper介绍了一个名为CARLA的自动驾驶开源模拟器，它提供了一个平台，旨在让研究人员能够在虚拟环境中开发、训练和验证自动驾驶系统。除了开源代码和协议外，CARLA还提供了详细的城市布局、建筑、车辆等数字资产，这些都可以免费使用，并且是专门为自动驾驶模拟创建的。

该模拟器支持灵活配置传感器套件和环境条件（如天气和时间等因素）。论文中使用CARLA来评估三种自动驾驶方法的性能：传统的模块化流程、通过模仿学习训练的端到端模型，以及通过强化学习训练的端到端模型。研究人员通过控制场景的复杂性、交通的存在和环境条件，在CRALA中测试了这些方法的性能。评估实验不仅揭示了这三种方法在不同难度的控制场景中的性能特点，也说明了该平台在自动驾驶研究中的实用性。

CARLA不仅可以评估自动驾驶车辆的感知能力，还可以评估它们对交通规则的遵守情况，以及在复杂环境中的决策能力。CARLA有助于推动自动驾驶技术的发展，特别是在处理城市驾驶中的复杂多智能体动态和长尾罕见事件方面。相比于在现实世界中测试自动驾驶系统，使用CARLA模拟器可以显著降低研究和开发的成本。

自动驾驶打工人

关注

13
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
入行端到端自动驾驶必读的18篇论文｜大佬强推

附赠自动驾驶最全的学习资料和量产经验：链接2024年，自动驾驶领域的“当红炸子鸡”非「端到端」莫属。从去年8月特斯拉发布FSD V12版本以来，全球的智驾前锋们都几乎开始all in「端到端」。而在不久前4月北京车展上，马斯克的惊喜亮相，也让业界看到了率先使用端到端方案的FSD入驻中国的可能。「端到端」对传统分模块化的技术栈端发起挑战，一场新的行业变局一触即发，工程师们又如何在这个风口看清方向才能不被淘汰？深蓝学院邀请复旦大学青年研究员丁文超老师，盘点了6个大类、共18篇端到端自动驾驶方向的必读paper，
复制链接

扫一扫