可信的人类与人工智能协作：基于人类反馈和物理知识的安全自主驾驶强化学习

最新推荐文章于 2025-02-19 09:32:35 发布

自动驾驶实战(AIFighting)

最新推荐文章于 2025-02-19 09:32:35 发布

阅读量1k

点赞数 5

分类专栏： github 文章标签：人工智能安全

本文链接：https://blog.csdn.net/laukal/article/details/142188330

版权

可信的人类与人工智能协作：基于人类反馈和物理知识的安全自主驾驶强化学习

Abstract

在自动驾驶领域，开发安全且可信赖的自动驾驶策略仍然是一项重大挑战。近年来，结合人类反馈的强化学习（RLHF）因其提升训练安全性和采样效率的潜力而备受关注。然而，现有的RLHF方法在面对不完美的人类示范时，往往会表现不佳，可能导致训练振荡甚至表现比基于规则的方法更差。受人类学习过程的启发，我们提出了物理增强的人类反馈强化学习（PE-RLHF）。该新框架协同融合了人类反馈（如人类干预和示范）和物理知识（如交通流模型）进入强化学习的训练回路中。PE-RLHF的关键优势在于，即使人类反馈质量下降，所学习的策略仍能至少达到给定物理策略的表现，从而确保了可信赖的安全性改进。PE-RLHF引入了一种物理增强的人机协作（PE-HAI）模式，用于在动态行动选择中结合人类和物理策略，并通过代理价值函数采用无奖励的方法来捕捉人类偏好，还结合了最小干预机制以减少人类导师的认知负担。通过在多种驾驶场景中的大量实验，PE-RLHF显著优于传统方法，取得了在安全性、效率和广泛适应性上的最新（SOTA）表现，即使在人类反馈质量不同的情况下，亦表现优异。PE-RLHF背后的理念不仅推动了自动驾驶技术的发展，也为其他安全关键领域提供了有价值的见解。

项目地址：https://zilin-huang.github.io/PE-RLHF-website/

Introduction

自动驾驶技术在多个驾驶场景下具有提升交通安全性和流动性的重要潜力。多家自动驾驶公司近年来展示了令人印象深刻的性能指标。例如，2023年，Waymo的自动驾驶车辆在加州总共行驶了4,858,890英里。同样，Cruise的自动驾驶车辆达成了2,064,728英里的无安全员驾驶里程和583,624英里的安全员驾驶里程，而Zoox报告了710,409英里的安全员驾驶里程和11,263英里的无安全员驾驶里程。尽管这些进展令人瞩目，自动驾驶技术在所有驾驶场景下实现完全自动化（第5级）仍然任重道远。尤其是，开发安全且具有广泛适应性的驾驶策略在多种安全关键场景中仍然是一个正在进行的研究挑战。最近的一项调查显示，安全性，而非经济后果或隐私问题，是公众对自动驾驶汽车接受度的主要担忧。此外，各种机构和公众仍对自动驾驶系统的可信度存有疑虑。因此，亟需通过开发可信赖且安全保障的驾驶策略来弥合预期的自动驾驶未来与当前先进技术之间的差距。

通常，自动驾驶公司采用分层方法将驾驶任务分解为多个子任务。这种方法降低了计算复杂性，并提供了良好的决策透明性。然而，这需要繁琐的手工规则制定，并且在复杂且高度交互的场景中可能会失效。近年来，基于学习的端到端方法因其能够从收集的驾驶数据中学习驾驶策略而逐渐受到关注，为设计更高效的驾驶策略提供了可能的途径。一个显著的例子是2023年CVPR的最佳论文UniAD。如图1（a）所示，模仿学习（IL）和强化学习（RL）是两种主要方法，特别是在端到端驾驶策略学习的背景下。IL旨在通过模仿人类驾驶行为来学习驾驶策略。尽管IL在特定的决策场景中表现良好，但在实际应用中面临两个重大问题：分布偏移和渐近性能限制。即使道路结构或周围车辆的轻微变化也可能导致灾难性后果，这在自动驾驶这种高风险的场景中尤为关键。

RL通过迭代自我改进，有潜力缓解模仿学习方法的固有局限性。在各种决策场景中，RL方法的有效性得到了验证，例如高速公路出口、交通拥堵和变道。然而，RL通常需要大量与环境的交互，可能会降低采样效率，并在训练和测试阶段带来安全问题。此外，设计合适的奖励函数以捕捉所有预期的驾驶行为可能具有挑战性。如果没有精心设计，这些奖励函数可能会导致意想不到的后果。许多自动驾驶文献中提出的奖励函数未通过基本的一致性检查，可能导致不安全的行为。因此，少有自动驾驶公司准备在其生产车辆中部署此技术。

这些观察结果促使我们探索一个关键问题：我们是否可以开发一种新的交互学习方案，使得强化学习（RL）能够同时从人类反馈和物理知识中学习，从而确保在RLHF技术中的“可信安全改进”？在这项工作中，我们提出了一个名为物理增强的强化学习与人类反馈（PE-RLHF）的新框架，以弥合上述差距。如图1（c）所示，PE-RLHF的独特之处在于其能够保持RLHF在提高训练安全性和采样效率方面的优势，同时利用物理知识来减轻因人类反馈不完美而导致的训练波动或发散。换句话说，我们放宽了对完美人类导师的假设，以考虑人类偶尔提供次优示范的情况。在这项工作中，“可信”这一概念意味着提出的PE-RLHF通过一个可控且可解释的基于物理的模型，确保即使人类反馈质量下降也能建立一个性能底线。我们强调，本工作并不旨在解决自动驾驶中的所有可信性问题，而是提供一个框架，结合RLHF和基于物理的方法的优点，以实现更好的安全性能（即可信的改进）。

3.问题描述

本研究的目标是为自动驾驶开发一个安全且可信赖的驾驶策略学习框架。该框架应具备以下特点：(a) 它应能够提供可信赖的安全性能保证。(b) 它应具有很强的泛化能力，能够应对现实世界交通场景中的环境不确定性（如道路几何变化和不可预见的障碍物）。(c）它应具有在有限训练数据下的高采样效率。为实现这一目标，我们提出将人类反馈和交通科学中的物理知识整合到强化学习的训练回路中。通过引入人类反馈，智能体可以以更高的采样效率进行学习。此外，通过引入物理知识，我们可以在统计上保证其安全性能优于给定的基于物理的策略。具体来说，我们将目标分解为以下子问题：

问题1（从人类反馈中学习）。传统的基于学习的方法，如模仿学习（IL）和强化学习（RL），在确保安全性和采样效率方面面临挑战。为了利用人类智慧，我们应设计一个方案，使自动驾驶智能体能够从人类反馈（如干预和示范）中学习。

问题2（可信赖的安全改进）。由于感知能力有限、注意力分散或疲劳等因素，人类演示的质量可能会随着时间的推移而下降，导致训练失败。为了确保基于人类反馈的强化学习方法（RLHF）的有效性和可信度，我们应确保即使在人类演示质量下降时，自动驾驶车辆（AV）智能体的策略性能仍不低于现有的基于物理的方法。

受到行为保护方法的启发，我们可以利用交通科学中成熟的基于物理的模型（能够处理大多数驾驶场景，除了长尾场景），作为自动驾驶车辆策略安全性能的可信赖下限。形式上，我们将问题定义如下：

其中，H是规划的时间范围。混合策略

定义为在人类策略

和基于物理的策略之间选择预期回报较高的动作。该公式确保即使在人类反馈可用时，AV智能体的性能至少与一样好。此外，这种方法提供了一个可信的安全下限，即使在人类演示质量下降时。通过从学习，AV智能体有可能超过

和的性能。

4. 增强物理知识的“人机协作”范式

4.1.启发

正如我们之前提到的，大多数人机协作范式通常依赖于“完美人类导师”的假设，但在实践中这可能并不总是成立。观察人类学习技能的过程，他们不仅依赖于人类教师，还依赖于既有的知识。比如，当学习外语时，学生可能会受到两位导师的指导：母语者和语法书。母语者的专业知识对学生的语言习得至关重要，提供了特定情境的指导和实际例子。然而，在某些情况下，母语者的解释可能不够清晰或不准确，比如使用与标准语法规则不同的口语表达。在这种情况下，语法书可以作为一个可靠的参考和安全网，确保学生遵循语言的基本规则。因此，通过从两位导师那里学习，学生的语言技能得到了提高。

受人类学习过程的启发，我们提出了“增强物理知识的人机协作”（PE-HAI）范式，其主要组成部分如图2（b）所示。在PE-HAI中，AV配备了三种策略：

（类似于母语者的角色）、（类似于语法书的角色）和（类似于学生的角色）。具体来说，基于可解释的物理模型生成动作，而

则基于人类的判断和情境感知提供动作