VLM-RL: 一个用于安全自动驾驶的统一视觉语言模型与强化学习框架

最新推荐文章于 2025-02-27 16:46:11 发布

自动驾驶之心

最新推荐文章于 2025-02-27 16:46:11 发布

阅读量663

点赞数

文章标签：自动驾驶语言模型人工智能机器学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247648925&idx=2&sn=40f09113c97f119f9ccc5fb59af97476&chksm=cfb8544f180a80d4d67b490a85e1a567c752de33c110639f7eab8162ec9b122a6720946a0985&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享美国威斯康星大学麦迪逊分校&普渡大学的最新工作—VLM-RL。一个用于安全自动驾驶的统一视觉语言模型与强化学习框架。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『自动驾驶』技术交流群

论文作者 | Zilin Huang等

编辑 | 自动驾驶之心

摘要

近年来，基于强化学习（Reinforcement Learning, RL）的驾驶策略学习方法在自动驾驶领域受到越来越多的关注，并在各种驾驶场景中取得了显著进展。然而，传统的RL方法依赖于手工设计的奖励函数，这不仅需要大量的人力投入，还往往缺乏通用性。为了解决这些局限性，我们提出了VLM-RL，一个将预训练的视觉-语言模型（Vision-Language Models, VLMs）与RL相结合的统一框架，用于通过图像观测和自然语言目标生成奖励信号。VLM-RL的核心是将对比语言目标（Contrasting Language Goal, CLG）作为奖励，利用正面和负面的语言目标生成语义奖励信号。此外，我们引入了一种层次化的奖励合成方法，将基于CLG的语义奖励与车辆状态信息相结合，从而提升奖励的稳定性并提供更全面的奖励信号。同时，采用批量处理技术优化了训练过程中的计算效率。我们在在CARLA模拟器中进行了大量实验，结果表明，VLM-RL优于最新的基线方法，使碰撞率降低10.5%、路线完成率提高104.6%，并且在未见过的驾驶场景中表现出强大的泛化能力。此外，VLM-RL能够无缝集成几乎所有标准的RL算法，有望革新依赖于手工奖励设计的传统RL范式，并实现持续的性能提升。演示视频和代码可通过以下链接访问：https://zilin-huang.github.io/VLM-RL-website/

论文链接：https://arxiv.org/abs/2412.15544

介绍

观察人类学习新技能的过程，我们发现，人类通常通过对比示例更有效地学习（图1）。例如，在教授某人如何煎牛排时，导师通常会强调正确和错误的技巧：“完美煎制的牛排应具有金黄酥脆的外壳和均匀粉红的内部”，与“如果牛排完全变成深棕色并伴有烧焦的气味，则表示煎过火了”。这种方式帮助学习者通过识别期望和不期望的结果，全面理解正确的烹饪技巧。

图 1：奖励设计范式的概念对比。(a) 机器人操作任务通常具有明确的目标（例如，“将胡萝卜放入碗中”），使得 VLM 可以提供清晰的语义奖励。(b) 现有方法仅使用负面目标（例如，“两辆车发生了碰撞”），专注于规避但缺乏正面引导。(c) 我们的 CLG-as-Reward 范式整合了正面和负面目标，使 VLM-RL 能够提供更具信息性的语义引导，实现更安全、更具泛化能力的驾驶。

受到人类学习过程的启发，我们提出了一个整合预训练视觉语言模型与在线强化学习的统一框架，称为 VLM-RL，如图2所示。VLM-RL 从根本上重新思考了基础模型如何融入基于 RL 的自动驾驶系统中。我们首先引入了对比语言目标的概念，用于指导基于 RL 的安全驾驶任务。在此基础上，我们提出了一种新的 CLG-as-Reward范式，利用 CLG 生成更具信息性和上下文感知的奖励信号。

为了增强学习的稳定性，我们采用了一种层次化奖励合成方法，将基于 CLG 的奖励与车辆状态信息相结合。这些合成的奖励随后被集成到标准 RL 中进行策略训练。此外，我们还引入了批量处理技术，以提高训练过程中的计算效率。

据我们所知，VLM-RL 是自动驾驶领域中首个将视觉语言模型与强化学习相结合，用于在 CARLA 模拟器中进行端到端驾驶策略学习的研究工作。

图2：自动驾驶奖励设计范式的比较概览。(a) 描述了基于 IL/RL 方法的驾驶策略学习的基本原理及其局限性。(b) 说明了基于基础模型的奖励设计方法（如 LLM-as-Reward 和 VLM-as-Reward 范式）在驾驶策略学习中的基本原理及其局限性。(c) 展示了我们提出的 VLM-RL 框架，通过利用 VLM 实现安全自动驾驶的全面且稳定的奖励设计。

方法

如图3所示，VLM-RL 框架由四个主要组件组成。首先，我们定义了对比语言目标的概念，该目标描述了期望和不期望的驾驶行为，为奖励计算提供了基础。其次，我们利用 CLIP 来计算当前驾驶状态与这些对比语言描述之间的语义对齐程度，从而生成语义奖励信号。第三，我们开发了一种层次化的奖励合成方法，将语义奖励与车辆状态信息（例如速度、航向角）相结合，以生成稳定且全面的奖励信号。第四，为了优化计算效率，我们实现了一种批量处理技术，该技术通过定期处理来自回放缓冲区的观测数据，而不是实时计算奖励来提高训练效率。

图 3：用于自动驾驶的 VLM-RL 框架架构。(a) 用于策略学习的观察和动作空间；(b) 定义 CLG 提供语义引导；(c) 基于预训练 VLM 的 CLG 语义奖励计算；(d) 分层奖励综合，将语义奖励与车辆状态信息整合，生成全面且稳定的奖励信号；(e) 使用批处理的策略训练，其中通过回放缓冲区存储的经验执行 SAC 更新，并异步计算奖励以优化效率。

对比语言目标

给定一个任务及其自然语言描述，这一基本方法利用视觉语言模型生成奖励信号，引导智能体朝着期望的行为方向行动。其形式化表达如下：

其中是一个可选的上下文，可以包含额外的信息或约束。在此公式中，VLM 接收语言目标、当前观测和可选上下文，并输出奖励信号。

CLG 作为奖励范式

给定视觉编码器和语言编码器，它们映射到相同的潜在空间。对于一系列状态-动作转移，VLM 奖励定义为：

其中是嵌入表示之间的距离度量。大多数研究使用 CLIP 作为预训练的 VLM，并采用余弦相似度作为距离度量。具体公式为：

其中，表示嵌入之间的余弦相似度，和分别是视觉和语言编码器。在这种情况下，我们不需要上下文。语言目标通常表示期望的行为。计算过程如下：当前观测通过视觉编码器处理，生成共享潜在空间中的状态嵌入；语言目标通过语言编码器编码，生成同一潜在空间中的目标嵌入；奖励由状态嵌入与目标嵌入之间的余弦相似度计算得出。

我们将 CLG 奖励函数定义为：

其中，是加权因子，满足。当时，智能体更专注于实现正面目标，而当时，智能体更强调避开负面结果。为了简化，在本工作中，我们设定，即两个目标具有相等的优先级。表示嵌入之间的余弦相似度。

多层奖励合成

与传统方法相比，我们的目标是通过结合车辆状态信息来保留 VLM 的zero-shot能力，从而生成更稳定且全面的奖励信号。具体而言，我们提出了一种层次化的奖励合成方法，该方法包括两个阶段：（a）通过 VLM 生成归一化的语义奖励；（b）将这些语义奖励与车辆状态信息结合以生成综合奖励信号。

Phase I: 语义奖励归一化

首先，通过 CLIP 处理观测帧，计算语义奖励。为了确保稳定性，我们将相似度分数归一化到范围：

其中，和分别经验设定为和，以避免极端值并确保一致的缩放。

Phase II: 融合车辆状态信息

我们结合车辆状态信息生成综合奖励信号。该步骤利用传感器数据确保奖励反映现实的驾驶行为和安全约束。

综合奖励函数通过将归一化的语义奖励与车辆状态信息结合来计算。具体如下：

其中，用于调节速度对齐程度，其中；评估车辆相对于车道中心的横向位置；衡量车辆相对于道路方向的朝向；确保车辆的横向位置相对于车道中心的一致性。

通过结合综合奖励函数，我们得到 VLM-RL 框架的最终奖励函数：

其中，稀疏任务奖励确保智能体目标导向，而综合奖励提供了基于高层语义理解和低层车辆动态的连续反馈。

基于批处理的策略训练

我们采用了 Soft Actor-Critic (SAC) 算法作为基础强化学习框架，原因是其在连续控制任务中具有出色的采样效率和稳定性。SAC 算法的目标是最大化期望总回报，同时通过熵正则化鼓励探索行为。其目标函数可以表示为：

其中，为折扣因子，是熵温度参数，用于控制回报与熵最大化之间的权衡，而表示状态下策略的熵。

为了更新策略参数，SAC 通过最小化以下目标函数实现：

其中，是经验回放池，是由参数表示的 Q 函数。

Q 函数参数的更新通过最小化Soft Bellman 残差实现：

这里，是目标 Q 函数，其参数会定期更新。

我们定义的替代奖励替换到Soft Bellman 残差中，从而得到新的损失函数：

在训练过程中，策略网络通过学习预测未来的回报，而策略更新通过标准 SAC 策略梯度更新进行。

为了降低 CLIP 推理的计算开销，我们开发了一种批量处理技术。在每个预定义的间隔时间内，从回放池中抽取一批观测，批量通过 CLIP 编码器处理。CLG ( 和 ) 的 CLIP 嵌入仅在训练开始时计算一次，并在整个训练过程中保持不变。我们根据合成奖励，用于更新存储的转移数据中的奖励。SAC 算法随后使用更新后的转移数据按照其标准的更新程序优化策略。

这种方法显著降低了 VLM 推理的计算开销，并使智能体能够异步优化，推动连续学习。

实验和结果

评价指标

为了全面评估我们的自动驾驶系统在性能和安全性方面的表现，我们采用了多种定量指标来评估驾驶效率和安全特性。在驾驶效率评估方面，我们测量了车辆在整个测试过程中保持的平均速度（AS）、单次测试中成功完成的路线数（RC）以及车辆在每次测试中累计行驶的总距离（TD）。

安全性能通过多个互补指标进行评估。基础碰撞率（CR）用于衡量包含碰撞事件的测试比例。我们进一步通过两个频率指标分析碰撞模式：基于时间的碰撞频率（TCF），即每1000个时间步长发生的碰撞次数，以及基于距离的碰撞频率（DCF），即每行驶一公里发生的碰撞次数。为评估碰撞严重程度，我们记录了每次碰撞时的碰撞速度（CS）。此外，我们跟踪记录了碰撞间隔时间步长（ICT），即连续碰撞事件之间的平均时间步数，从而深入了解安全事故的时间分布。在测试阶段，我们还报告了成功率（SR），用于评估模型在10条预定义路线中成功到达目的地的能力。

训练效果比较

为了进一步验证 VLM-RL 的有效性，我们在 10 条预定义路线中进行了全面的测试评估，并将其性能与基线方法进行了比较。路线完成率表示每次评估中平均的路线完成率。表 2 的测试结果表明，与基线方法相比，我们的方法具有显著的优势。

在测试阶段，二元奖励方法的局限性依然明显。TIRL 变体的路线完成率仅为 0.01，总行驶距离分别为 4.7 米和 14.8 米，证实了它们无法学习有意义的驾驶行为。在具有加权求和项的专家设计奖励方法中，Chen-SAC 保持了最高的平均速度 21.4 km/h，但其成功率仅为 0.08，路线完成率为 0.29，表明其激进的驾驶风格降低了任务成功率。ChatScene 变体表现出更均衡的性能，成功率分别为 0.73 和 0.63，但其碰撞速度分别为 1.18 km/h 和 0.89 km/h，显示出潜在的安全隐患。

基于 LLM 的方法在测试中具有竞争力，Revolve 的成功率达到 0.83，路线完成率为 0.92。然而，其碰撞速度为 1.53 km/h 和 1.65 km/h，表明仍存在安全问题。大多数基于 VLM 的方法，包括 VLM-SR、RoboCLIP、VLM-RM 和 LORD，表现出极为保守的行为，其路线完成率均低于 0.07，成功率为 0.0。LORD-Speed 的效率指标显著提高，但记录了所有方法中最高的碰撞速度 2.80 km/h。

相比之下，VLM-RL 在测试期间所有关键指标上都表现出卓越的性能。它保持了 19.3 km/h 的高平均速度，同时记录了 0.02 km/h 的低碰撞速度，与最保守的方法安全性相当。最值得注意的是，VLM-RL 实现了最高的成功率 0.93 和路线完成率 0.97，以及最长的总行驶距离 2028.2 米。这些结果表明，我们的方法不仅能够学习更有效的驾驶策略，还表现出更好的测试场景泛化能力。在效率和安全性指标上取得的显著改进验证了基于 CLG 和分层奖励设计的方法在提供全面且平衡的学习信号以实现安全驾驶任务中的有效性。

可视化

为了更好地理解基于 CLIP 的语义奖励的效果和局限性，我们可视化了三个具有代表性的失败案例，并分析了正目标、负目标和 CLG 如何捕获不同的驾驶行为。如图 14 所示，我们展示了图像序列及其对应的语义相似度分数在三种挑战性场景中的变化。

在图1 4(a) 展示的追尾碰撞场景中，我们观察到，当自车逐渐接近前车时，正目标的相似度分数逐渐下降，而负目标的相似度分数逐渐上升。这种模式与我们的设计意图一致：不安全行为应导致较低的正目标相似度和较高的负目标相似度。最终的对比得分显示出明显的下降趋势，正确反映了追尾碰撞行为的不理想性质。

图 14(b) 展示的侧面碰撞案例揭示了另一个有趣的模式。在第 30 到第 45 步的碰撞期间，正目标的相似度并未显著下降，这表明 VLM 有时难以单独通过正目标捕捉安全违规行为。然而，负目标的相似度在碰撞期间表现出显著的峰值，导致对比得分出现适当的下降，从而正确惩罚了该不安全行为。

图14(c) 展示的偏离道路场景突出了纯基于 VLM 的语义奖励的局限性。随着车辆偏离道路，正目标相似度下降的同时，负目标相似度也呈现下降趋势。这导致对比得分相对平稳，未能充分惩罚偏离道路的行为。这一局限性源于我们的语言目标主要聚焦于与碰撞相关的行为，而未明确考虑道路边界违规。

这些观察结果揭示了基于 VLM 的语义奖励的潜力和局限性。尽管 CLG 能有效捕获许多不安全行为，但在某些场景下可能无法提供适当的学习信号，特别是那些未在语言目标中明确描述的场景。这突显了我们分层奖励合成方法的必要性，通过结合高层语义理解与低层车辆状态信息，提供更全面且可靠的奖励信号。

结论

本文提出了 VLM-RL，一个将预训练视觉-语言模型（VLMs）与强化学习（RL）相结合的统一框架，用于安全自动驾驶。本研究的主要贡献在于通过利用 VLMs 的语义理解能力，解决了奖励设计的挑战。具体而言，我们提出了对比语言目标（CLG）作为奖励的范式，利用正目标和负目标生成语义奖励。同时，我们引入了一种分层奖励合成方法，将基于 CLG 的奖励与车辆状态信息结合，提升了奖励的稳定性，并提供了更全面的学习信号。为缓解计算挑战，我们采用了一种批处理技术，实现了训练过程中的高效奖励计算。

在 CARLA 仿真器中进行的大量实验验证了 VLM-RL 的有效性。与最先进的基线方法相比，VLM-RL 在安全性、效率和对未见驾驶场景的泛化能力上实现了显著提升。特别是，VLM-RL 将碰撞率降低了 10.5%，路线完成率提高了 104.6%，并在多样化交通环境中展现出稳健的性能。这些结果验证了将 VLMs 与 RL 相结合的潜力，为开发更加可靠且具备上下文感知能力的自动驾驶策略提供了新途径。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米，预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势，同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）