端到端训练新范式！华科&地平线RAD：基于3DGS的闭环强化学习SOTA！性能提升3倍~...

最新推荐文章于 2025-04-30 15:48:56 发布

自动驾驶之心

最新推荐文章于 2025-04-30 15:48:56 发布

阅读量340

点赞数 1

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247655727&idx=1&sn=a26f5ea0f433ab668107bce2e314bfd6&chksm=cf875e61517e8ed66ea4ecd6b4f5e38cb4aaff0f0acf10eb9da9b0ce183e02a55a4d424872e4&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享华科&地平线最新的工作—RAD！基于3DGS的闭环强化学习训练新范式，端到端碰撞率降低3倍！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

写在前面 & 笔者的个人理解

现有的端到端自动驾驶（AD）算法通常遵循模仿学习（IL）范式，这面临着因果混淆和开环Gap等挑战。在这项工作中，我们建立了一个基于3DGS的闭环强化学习（RL）训练范式。通过利用3DGS技术，可以构建真实物理世界的真实仿真结果，使AD策略能够广泛探索状态空间，并通过大规模试错学习处理分布外场景。为了提高安全性，我们设计了专门的奖励机制，引导策略有效应对安全关键事件并理解现实世界的因果关系。为了更好地与人类驾驶行为对齐，IL被纳入RL训练作为正则化项。我们引入了一个由多样且以前未见过的3DGS环境组成的闭环评估基准。与基于IL的方法相比，RAD在大多数闭环指标中表现更强，尤其是碰撞率降低了3倍。

项目主页：https://hgao-cv.github.io/RAD。

引言

端到端自动驾驶（AD）目前是学术界和工业界的热门话题。它通过直接将感官输入映射到驾驶动作，用整体流水线取代模块化流水线，从而提供系统简洁性和泛化能力的优势。大多数现有的端到端AD算法遵循模仿学习（IL）范式，该范式训练神经网络以模仿人类驾驶行为。然而尽管它们简单，但基于IL的方法在实际部署中面临重大挑战。

一个关键问题是因果混淆。IL通过从演示中学习来训练网络复制人类驾驶策略。然而，这种范式主要捕捉观察（状态）和动作之间的相关性，而不是因果关系。因此经过IL训练的策略可能难以识别规划决策背后的真正因果因素，导致捷径学习，例如仅仅从历史轨迹推断未来轨迹。此外，由于IL训练数据主要包含常见的驾驶行为，不足以覆盖长尾分布，经过IL训练的策略往往收敛到平凡解，缺乏对碰撞等安全关键事件的足够敏感性。

另一个主要挑战是开环训练与闭环部署之间的差距。IL策略以开环方式使用分布良好的驾驶演示进行训练。然而，现实世界的驾驶是一个闭环过程，每一步的小轨迹误差会随着时间累积，导致复合误差和分布外场景。IL训练的策略在这些未见过的情况下常常表现不佳，引发了对其鲁棒性的担忧。

解决这些问题的一个直接方法是进行闭环强化学习（RL）训练，这需要一个可以与AD策略交互的驾驶环境。然而，使用真实世界的驾驶环境进行闭环训练存在禁止的安全风险和运营成本。具有传感器数据模拟功能的仿真驾驶环境（这是端到端AD所需要的）通常建立在游戏引擎上，但无法提供仿真的传感器模拟结果。

在这项工作中，我们建立了一个基于3DGS的闭环RL训练范式。利用3DGS技术，我们构建了真实物理世界的仿真数字副本，使AD策略能够广泛探索状态空间，并通过大规模试错学习处理分布外场景。为了确保对安全关键事件的有效响应和对现实世界因果关系的更好理解，我们设计了专门的安全相关奖励。然而，RL训练提出了几个关键挑战，本文解决了这些问题。

一个重大挑战是人类对齐问题。RL中的探索过程可能导致偏离类人行为的策略，破坏动作序列的平滑性。为了解决这个问题，我们在RL训练期间将模仿学习作为正则化项纳入，帮助保持与人类驾驶行为的相似性。如图1所示，RL和IL协同优化AD策略：RL通过建模因果关系和缩小开环差距来增强IL，而IL通过确保更好的人类对齐来改进RL。

另一个主要挑战是稀疏奖励问题。RL经常遭受稀疏奖励和缓慢收敛的问题。为了缓解这个问题，我们引入了与碰撞和偏差相关的密集辅助目标，有助于约束完整动作分布。此外，我们简化并解耦动作空间，以减少与RL相关的探索成本。

为了验证我们方法的有效性，我们构建了一个由多样且以前未见过的3DGS环境组成的闭环评估基准。我们的方法RAD在大多数闭环指标中优于基于IL的方法，特别是在碰撞率方面降低了3倍。

总结来说，本文的主要贡献如下：

我们提出了第一个基于3DGS的RL框架，用于训练端到端AD策略。奖励、动作空间、优化目标和交互机制经过特别设计，以提高训练效率和效果。
我们结合RL和IL协同优化AD策略。RL通过建模因果关系和缩小开环差距来补充IL，而IL在人类对齐方面补充RL。
我们在一个由多样且以前未见过的3DGS环境组成的闭环评估基准上验证了RAD的有效性。RAD在闭环评估中表现更强，特别是碰撞率比基于IL的方法低3倍。

RAD算法详解

端到端驾驶策略

RAD的整体框架如图2所示。RAD以多视图图像序列作为输入，将传感器数据转换为场景标记嵌入，输出动作的概率分布，并对动作进行采样以控制车辆。

鸟瞰图（BEV）编码器：我们首先使用BEV编码器将多视图图像特征从透视视图转换为鸟瞰图，从而在BEV空间中获得一个特征图。该特征图随后用于学习实例级地图特征和智能体特征。
地图头：然后，我们利用一组地图标记从BEV特征图中学习驾驶场景的矢量化地图元素，包括车道中心线、车道分隔线、道路边界、箭头、交通信号灯等。
智能体头：此外，我们采用一组智能体标记来预测其他交通参与者的运动信息，包括位置、方向、大小、速度和多模态未来轨迹。
图像编码器：除了上述实例级地图和智能体标记外，我们还使用单独的图像编码器将原始图像转换为图像标记。这些图像标记为规划提供了密集而丰富的场景信息，与实例级标记形成互补。
动作空间：为了加速强化学习训练的收敛，我们设计了一种解耦的离散动作表示。我们将动作分为两个独立的部分：横向动作和纵向动作。动作空间是在0.5秒的短时间范围内构建的，在此期间，通过假设车辆的线性速度和角速度恒定来近似其运动。在这个假设下，横向动作和纵向动作可以根据当前的线性速度和角速度直接计算得出。通过将解耦与有限的时间范围和简化的运动模型相结合，我们的方法有效地降低了动作空间的维度，加速了训练收敛。
规划头：我们用表示场景表示，它由地图标记、智能体标记和图像标记组成。我们初始化一个规划嵌入，记为。一个级联的Transformer解码器以规划嵌入作为查询，场景表示作为键和值。解码器的输出然后与导航信息和自车状态相结合，以输出横向动作和纵向动作的概率分布：

其中、、和MLP的输出维度均为。规划头还输出值函数和，分别用于估计横向和纵向动作的预期累积奖励：

值函数用于强化学习训练。

训练范式

我们采用三阶段训练范式：感知预训练、规划预训练和强化后训练，如图2所示。

感知预训练：图像中的信息是稀疏且低级的。在第一阶段，地图头和智能体头明确输出地图元素和智能体运动信息，这些信息由真实标签进行监督。因此，地图标记和智能体标记隐式编码了相应的高级信息。在这个阶段，我们只更新BEV编码器、地图头和智能体头的参数。
规划预训练：在第二阶段，为了防止强化学习训练的冷启动不稳定，首先进行模仿学习，基于专家驾驶员在现实世界中的大规模驾驶演示来初始化动作的概率分布。在这个阶段，我们只更新图像编码器和规划头的参数，而BEV编码器、地图头和智能体头的参数被冻结。感知任务和规划任务的优化目标可能会相互冲突。然而，通过将训练阶段和参数解耦，这种冲突在很大程度上得以避免。
强化后训练：在强化后训练中，强化学习和模仿学习协同微调分布。强化学习旨在引导策略对关键风险事件敏感，并适应分布外的情况。模仿学习作为正则化项，使策略的行为与人类行为保持相似。

我们从收集到的驾驶演示中选择了大量高碰撞风险的密集交通片段。对于每个片段，我们训练一个独立的3DGS模型，对该片段进行重建，并将其作为数字驾驶环境。如图3所示，我们设置了N个并行工作进程。每个工作进程随机采样一个3DGS环境并开始滚动，即AD策略控制自车移动，并与3DGS环境进行迭代交互。在这个3DGS环境的滚动过程结束后，生成的滚动数据被记录在滚动缓冲区中，并且该工作进程将采样一个新的3DGS环境进行下一轮滚动。

在策略优化方面，我们迭代执行强化学习训练步骤和模仿学习训练步骤。对于强化学习训练步骤，我们从滚动缓冲区中采样数据，并遵循近端策略优化（PPO）框架来更新AD策略。对于模仿学习训练步骤，我们使用现实世界的驾驶演示来更新策略。在固定数量的训练步骤之后，更新后的AD策略被发送到每个工作进程中，以替换旧策略，从而避免数据收集和优化之间的分布偏移。我们只更新图像编码器和规划头的参数。BEV编码器、地图头和智能体头的参数被冻结。下面将详细介绍强化学习的设计。

AD策略与3DGS环境之间的交互机制

在3DGS环境中，自车根据AD策略行动。其他交通参与者以日志重放的方式根据现实世界数据行动。我们采用一个简化的运动学自行车模型，每隔秒迭代更新自车的位姿，公式如下：

其中和表示自车相对于世界坐标系的位置；是航向角，定义了车辆相对于世界x轴的方向；是自车的线速度；是前轮的转向角；L是轴距，即前后轴之间的距离。

在滚动过程中，AD策略在时间步为0.5秒的时间范围输出动作。我们根据推导出线性速度和转向角。基于公式3中的运动学模型，自车在世界坐标系中的位姿从更新为。基于更新后的，3DGS环境计算自车的新状态。更新后的位姿和状态作为下一次推理过程迭代的输入。3DGS环境还根据多源信息（包括其他智能体的轨迹、地图信息、自车的专家轨迹和高斯参数）生成奖励R，这些奖励用于优化AD策略。

奖励建模

奖励是训练信号的来源，它决定了强化学习的优化方向。奖励函数旨在通过惩罚不安全行为和鼓励与专家轨迹对齐来引导自车的行为。它由四个奖励组件组成：（1）与动态障碍物碰撞、（2）与静态障碍物碰撞、（3）与专家轨迹的位置偏差、（4）与专家轨迹的航向偏差：

如图4所示，这些奖励组件在特定条件下被触发。在3DGS环境中，如果自车的边界框与动态障碍物的标注边界框重叠，则检测到动态碰撞，触发负奖励。类似地，当自车的边界框与静态障碍物的高斯分布重叠时，识别为静态碰撞，产生负奖励。位置偏差通过自车当前位置与专家轨迹上最近点之间的欧几里得距离来衡量。如果偏差超过预定义阈值，则会产生负奖励。航向偏差计算为自车当前航向角与专家轨迹匹配的航向角之间的角度差。如果偏差超过阈值，则会产生负奖励。

这些事件中的任何一个，包括动态碰撞、静态碰撞、过度的位置偏差或过度的航向偏差，都会立即触发情节终止。因为在这些事件发生后，3DGS环境通常会生成有噪声的传感器数据，这对强化学习训练是有害的。

策略优化

在闭环环境中，每一步的误差会随着时间累积。上述奖励不仅由当前动作引起，还受到前面步骤动作的影响。奖励通过广义优势估计（GAE）向前传播，以优化前面步骤的动作分布。

具体来说，对于每个时间步，我们存储当前状态、动作、奖励和值的估计。基于解耦的动作空间，并考虑到不同奖励与横向和纵向动作的相关性不同，奖励被分为横向奖励和纵向奖励：

类似地，值函数被解耦为两个组件：用于横向维度的和用于纵向维度的。这些值函数分别估计横向和纵向动作的预期累积奖励。优势估计和的计算如下：

其中和是横向和纵向维度的时间差分误差，是折扣因子，是GAE参数，用于控制偏差和方差之间的权衡。

为了进一步阐明优势估计与奖励组件之间的关系，我们基于公式5中的奖励分解和公式6中的优势估计，对和进行分解。具体来说，我们得到以下分解：

其中是避免静态碰撞的优势估计，是最小化位置偏差的优势估计，是最小化航向偏差的优势估计，是避免动态碰撞的优势估计。

这些优势估计用于遵循PPO框架指导AD策略的更新。通过利用分解后的优势估计和，我们可以独立优化策略的横向和纵向维度。这是通过为每个维度定义单独的目标函数和来实现的，如下所示：

其中是横向维度的重要性采样比，是纵向维度的重要性采样比，和是小常数，用于控制横向和纵向维度的裁剪范围，确保策略更新的稳定性。

裁剪后的目标函数可防止对策略参数进行过大的更新，从而保持训练的稳定性。

辅助目标

强化学习通常面临奖励稀疏的问题，这使得收敛过程不稳定且缓慢。为了加快收敛速度，我们引入了辅助目标，为整个动作分布提供密集的指导。

辅助目标旨在通过纳入特定的奖励源来惩罚不良行为，这些奖励源包括动态碰撞、静态碰撞、位置偏差和航向偏差。这些目标是基于旧的自动驾驶策略在时刻选择的动作和计算的。为了便于评估这些动作，我们将动作的概率分布分为四个部分：

这里，表示减速动作的总概率，表示加速动作的总概率，表示向左转向动作的总概率，表示向右转向动作的总概率。

动态碰撞辅助目标：动态碰撞辅助目标根据潜在碰撞相对于自车的位置调整纵向控制动作。如果检测到前方有碰撞，策略优先选择减速动作（）；如果检测到后方有碰撞，则鼓励加速动作（）。为了将这种行为形式化，我们定义一个方向因子：

避免动态碰撞的辅助目标定义为：

其中，是避免动态碰撞的优势估计。

静态碰撞辅助目标：静态碰撞辅助目标根据与静态障碍物的接近程度调整转向控制动作。如果检测到静态障碍物在左侧，策略促进向右转向动作（）；如果检测到静态障碍物在右侧，则促进向左转向动作。为了将这种行为形式化，我们定义一个方向因子：

避免静态碰撞的辅助目标定义为：

其中，是避免静态碰撞的优势估计。

位置偏差辅助目标：位置偏差辅助目标根据自车相对于专家轨迹的横向偏差调整转向控制动作。如果自车向左偏离，策略促进向右修正（）；如果向右偏离，则促进向左修正（）。我们用一个方向因子来形式化这一过程：

位置偏差修正的辅助目标为：

其中，用于估计轨迹对齐的优势。

航向偏差辅助目标：航向偏差辅助目标根据自车当前航向与专家参考航向之间的角度差调整转向控制动作。如果自车逆时针偏离，策略促进顺时针修正（）；如果顺时针偏离，则促进逆时针修正（）。为了将这种行为形式化，我们定义一个方向因子：

航向偏差修正的辅助目标定义为：

其中，是航向对齐的优势估计。

整体辅助目标：整体辅助目标是各个单独目标的加权和：

其中，、、和是加权系数，用于平衡每个辅助目标的贡献。

优化目标：最终的优化目标将裁剪后的近端策略优化目标与辅助目标相结合：

实验结果分析

实验设置

数据集和基准：我们在真实物理世界中收集了2000小时的专家人类驾驶演示数据。通过低成本的自动标注流程，获取这些驾驶演示中地图和智能体的真实标签。在第一阶段的感知预训练中，我们将地图和智能体标签作为监督信息。在第二阶段的规划预训练中，我们使用自车的里程计信息作为监督。在第三阶段的强化后训练中，我们从收集到的驾驶演示中挑选出4305个高碰撞风险的关键密集交通片段，并将这些片段重建为3DGS环境。其中，3968个3DGS环境用于强化学习训练，另外337个3DGS环境作为闭环评估基准。
评估指标：我们使用九个关键指标来评估自动驾驶策略的性能。动态碰撞率（DCR）和静态碰撞率（SCR）分别量化与动态和静态障碍物碰撞的频率，它们的总和表示为碰撞率（CR）。位置偏差率（PDR）衡量自车相对于专家轨迹在位置上的偏差，而航向偏差率（HDR）评估自车与专家轨迹在前进方向上的一致性。整体偏差由偏差率（DR）量化，定义为PDR和HDR之和。平均偏差距离（ADD）量化在发生任何碰撞或偏差之前，自车与专家轨迹之间的平均最近距离。此外，纵向加加速度（Long. Jerk）和横向加加速度（Lat. Jerk）通过测量纵向和横向的加速度变化来评估驾驶的平稳性。CR、DCR和SCR主要反映策略的安全性，而ADD反映自动驾驶策略与人类驾驶员之间的轨迹一致性。

结果消融实验

为了评估RAD中不同设计选择的影响，我们进行了三项消融实验。这些实验研究了强化学习（RL）和模仿学习（IL）之间的平衡、不同奖励源的作用以及辅助目标的效果。

RL-IL比例分析：我们首先分析不同RL与IL步骤混合比例的影响（表1）。纯模仿学习策略（0:1）导致最高的CR（0.229），但ADD最低（0.238），这表明其轨迹一致性强，但安全性较差。相比之下，纯强化学习策略（1:0）显著降低了CR（0.143），但增加了ADD（0.345），这意味着以轨迹偏差为代价提高了安全性。在4:1的比例下实现了最佳平衡，此时CR最低（0.089），同时ADD也相对较低（0.257）。进一步增加RL的主导地位（例如8:1）会导致ADD恶化（0.323）和加加速度升高，这意味着轨迹平滑度降低。
奖励源分析：我们分析了不同奖励组件的影响（表2）。仅使用部分奖励项训练的策略（例如ID 1、2、3、4、5）与完整奖励设置（ID 6）相比，具有更高的碰撞率（CR）。ID 6实现了最低的CR（0.089），同时保持了稳定的ADD（0.257）。这表明，一个平衡良好的奖励函数，包含所有奖励项，能够有效地提高安全性和轨迹一致性。在部分奖励配置中，ID 2省略了动态碰撞奖励项，表现出最高的CR（0.238），这表明缺少该项会显著削弱模型避免动态障碍物的能力，从而导致更高的碰撞率。
辅助目标分析：最后，我们研究了辅助目标的影响（表3）。与完整的辅助目标设置（ID 8）相比，省略任何一个辅助目标都会增加CR，当所有辅助目标都被移除时，CR显著上升。这突出了它们在提高安全性方面的集体作用。值得注意的是，ID 1保留了所有辅助目标但排除了近端策略优化（PPO）目标，其CR为0.187。这个值高于ID 8，这表明虽然辅助目标有助于减少碰撞，但与PPO目标结合时最为有效。

我们的消融实验强调了结合RL和IL、使用全面的奖励函数以及实施结构化辅助目标的重要性。最优的RL - IL比例（4:1）以及完整的奖励和辅助目标设置始终能产生最低的CR，同时保持稳定的ADD，确保了安全性和轨迹一致性。

与现有方法的比较

如表4所示，我们在提出的基于3DGS的闭环评估中，将RAD与其他端到端自动驾驶方法进行了比较。为了进行公平比较，所有方法都使用相同数量的人类驾驶演示数据进行训练。RAD中用于RL训练的3DGS环境也是基于这些数据构建的。与基于IL的方法相比，RAD在大多数指标上表现更优。特别是在CR方面，RAD实现了低三倍的碰撞率，这表明RL帮助自动驾驶策略学习了通用的避撞能力。

定性比较

我们对仅使用模仿学习的自动驾驶策略（无强化后训练）和RAD进行了定性比较，如图5所示。仅使用模仿学习的方法在动态环境中表现不佳，经常无法避免与移动障碍物的碰撞或处理复杂的交通情况。相比之下，RAD始终表现良好，能够有效地避免动态障碍物并处理具有挑战性的任务。这些结果突出了混合方法中闭环训练的优势，它使模型能够更好地处理动态环境。

研究局限与结论

在本研究中，我们提出了首个基于3D高斯溅射（3DGS）的强化学习框架，用于训练端到端的自动驾驶策略。我们将强化学习和模仿学习相结合，其中强化学习有助于建模因果关系、缩小开环差距，而模仿学习则使策略在行为上更贴近人类驾驶。不过，本研究也存在一定的局限性。目前所使用的3DGS环境运行方式缺乏反应性，即其他交通参与者不会根据自车的行为做出反应，仅以日志重放的形式行动。并且3DGS的效果仍有提升空间，尤其是在渲染非刚性行人、未观测到的视角以及低光照场景方面。未来的研究将致力于解决这些问题，并将强化学习提升到新的水平。

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）