清华提出BEV感知和强化学习融合方法：实现感知和决策的无缝衔接

最新推荐文章于 2025-05-18 21:48:53 发布

深蓝学院

最新推荐文章于 2025-05-18 21:48:53 发布

阅读量1.6k

点赞数 23

文章标签：机器人自动驾驶人工智能

本文链接：https://blog.csdn.net/soaring_casia/article/details/142756723

版权

导读： 本文提出了一种基于鸟瞰图和环视摄像头输入的深度强化学习（DRL）特征提取网络，以获得车辆周围完整的环境信息。基于经典的自动驾驶感知任务语义分割，对提出的特征提取网络从环视摄像头中提取的高维环境特征进行解码，并将解码后的信息可视化为环境中的其他车辆，提高了DRL的可解释性。©️【深蓝AI】编译

1. 摘要

端到端自动驾驶为传统模块化系统提供了一种简化的替代方案，将感知、预测和规划集成在一个框架内。虽然深度强化学习（DRL）最近在这一领域获得了关注，但现有方法往往忽视了DRL的特征提取和感知之间的关键联系。在本文中，作者通过将DRL特征提取网络直接映射到感知阶段来弥补这一差距，从而通过语义分割实现更清晰的解释。通过利用鸟瞰图（BEV）表示，作者提出了一种基于DRL的新型端到端驾驶框架，该框架利用多传感器输入来构建对环境的统一3D理解。这个基于BEV的系统提取关键环境特征并将其转换为DRL的高级抽象状态，从而促进更明智的控制。大量的实验评估表明，作者的方法不仅提高了可解释性，而且在自动驾驶控制任务中也明显优于最先进的方法，将碰撞率降低了20%。

图1｜基于深度强化学习构建感知驱动的端到端自动驾驶模型©️【深蓝AI】编译

2. 引文

端到端自动驾驶能够将感知、预测和规划统一为单一集成模型，为传统模块化方法提供了替代方案。与经典系统相比，其中感知、预测和规划的独立模块容易出现错误传播和计算复杂度高的问题。由于它可以大大减少手动规则代码的编写，端到端已逐渐成为智能网联汽车智能开发的主流趋势。

最近的进展已将深度强化学习（DRL）应用于端到端自动驾驶，其中系统将环境和车辆状态信息编码为高维潜在特征表示。从这些表示中，DRL代理输出用于自主导航的驾驶策略。然而，现有的研究通常将特征提取视为一个孤立的组件，而没有明确地将其连接到感知模块，这在传统驾驶系统中至关重要。在本文中，作者通过将DRL的特征提取网络映射到感知阶段来弥补这一差距，更重要的是，利用语义分割解码以结构化的方式解释提取的特征。

鸟瞰视图（BEV）表示已成为捕捉驾驶场景的有效手段，尤其是在城市环境中。BEV将多传感器输入整合到统一的三维空间中，提供对车辆周围环境的全面了解。在本文的框架中，BEV特征作为DRL策略的输入，该策略输出驾驶控制信号。虽然BEV提供了一种强大的特征表示方法，但提取这些特征并将其转换为适合DRL的抽象状态的过程仍然具有挑战性。为了克服这个问题，作者提出了一个富有表现力且高效的神经网络来从BEV输入中提取相关特征并将它们直接映射到自动驾驶系统的感知阶段。通过将语义分割纳入特征解码过程，作者旨在提供对环境的更清晰的解释，使DRL代理的决策更加透明和明智。

本文提出了一种基于DRL的端到端自动驾驶框架，该框架集成了BEV。该系统结合了面向不同方向的摄像头的输入，并构建了驾驶环境的BEV表示。神经网络模块旨在从BEV数据中提取显着特征，捕获有关周围环境和车辆自身状态的相关信息。然后将提取的BEV特征输入到DRL代理中，该代理学习直接从感官输入中解码适当的驾驶策略，而无需对环境进行显式建模。通过结合BEV表示，所提出的框架旨在为DRL代理提供对驾驶场景的更全面和结构化的理解，并增强代理推理环境和做出更明智决策的能力，从而提高自动驾驶性能。据作者调研，本文是第一个将BEV和深度强化学习相结合用于端到端自动驾驶的解决方案。

3. 相关工作

3.1 传统模块化方法

传统的自动驾驶模块化方法由四个主要模块组成：感知、预测、规划和控制。每个模块都会影响整体性能。早期的感知模块依赖于传统的计算机视觉算法，例如边缘检测、角点检测和目标跟踪。基于传统机器学习的车辆轨迹预测方法包括卡尔曼滤波器、贝叶斯网络和马尔可夫方法。相比之下，深度学习方法通常使用长短期记忆（LSTM）编码器-解码器结构。规划模块分为全局和局部路径规划，为车辆的低级控制器计算轨迹点，控制模块根据驾驶轨迹生成安全可靠的实时指令。这种模块化设计的一个关键优势是它的可解释性；它将复杂的系统分解为独立但相互关联的模块，每个模块专注于一项特定的任务，使理解和分析变得更容易。

3.2 深度强化学习方法

深度强化学习是一种强大而有效的方法，可以获得性能卓越的端到端自动驾驶策略。使用强化学习进行端到端自动驾驶的研究有很多。相关的文献提出了一个框架，旨在促进复杂城市自动驾驶环境中的无模型深度强化学习。也有文献提出在模拟环境中进行强化学习，以开发能够控制全尺寸真实车辆的驾驶系统。驾驶策略利用从单个摄像头捕获的RGB图像及其语义分割作为输入数据。最近也有人提出了一个全面的决策框架，融合了规划和学习的原则。这种融合利用蒙特卡洛树搜索和深度强化学习来应对环境多样性、传感器信息不确定性以及与其他道路使用者的复杂交互等挑战。

3.3 自动驾驶可解释性

自动驾驶是一项高风险、安全至关重要的应用。可解释性结合了可解释性（人类可理解性）和完整性（详尽解释），对于用户和交通参与者信任和接受自动驾驶系统至关重要，研究人员还依靠可解释性来优化和提高驾驶算法的性能。随着端到端自动驾驶的发展，对可解释性的需求变得越来越重要。深度强化学习模型由多层和复杂的神经网络组成，通常使其决策过程和特征表示难以理解。视觉分析是增强这些模型可解释性的关键方法。本文提出了一种从鸟瞰图（BEV）进行的深度强化学习特征提取网络，将感知任务与特征解码和可视化相结合，提高了端到端自动驾驶算法的性能和可解释性。

4. 方法

端到端算法框架由于其更简洁的算法流程和更强的泛化性能，在自动驾驶领域引起了极大的关注。在之前的端到端自动驾驶方法的基础上，作者使用安装在汽车上的多个摄像头作为端到端自动驾驶算法的输出，输出控制油门、刹车和方向盘转角的控制信号。

4.1 问题定义

作者的工作重点是设计端到端自动驾驶算法，旨在高效到达目标位置，同时避免与其他交通参与者发生碰撞。该问题可以建模为部分可观察马尔可夫决策过程（POMDP）。POMDP可以用元组 $<\mathcal{A},\mathcal{S},\mathcal{R},\mathcal{P},\mathcal{O},\mathcal{Z},\gamma>$ 表示，其中 $\mathcal{A}$ 表示动作空间， $\mathcal{S}$ 表示状态空间， $\mathcal{R}$ 表示奖励函数， $\mathcal{P}$ 是状态转换函数， $\mathcal{O}$ 是观察空间， $\mathcal{Z}$ 是观察函数， $\gamma$ 是折扣因子。在自动驾驶的背景下，状态转换函数 $\mathcal{P}$ 和观察函数 $\mathcal{Z}$ 通常不以闭式提供，因此这是一个无模型的POMDP问题。以下部分将概述自动驾驶任务的POMDP公式。