【文献阅读】Human-Guided Reinforcement Learning With Sim-to-Real Transfer for Autonomous Navigation

Toky丶

已于 2025-03-24 12:55:43 修改

阅读量556

点赞数 5

分类专栏：人工智能文章标签：人工智能强化学习

于 2025-03-13 15:41:52 首次发布

本文链接：https://blog.csdn.net/Toky_min/article/details/146224923

版权

人工智能专栏收录该内容

26 篇文章

订阅专栏

《用于自主导航的基于人引导强化学习的虚实迁移》

2023 TPAMI

摘要

强化学习（RL）在无人地面车辆（UGV）应用中前景广阔，但有限的计算资源使得部署带有复杂神经网络的性能良好的RL策略颇具挑战。同时，RL在导航任务上的训练难度较大，这需要精心设计的奖励函数和大量的交互，然而RL导航仍可能因许多极端情况而失败。这表明当前RL方法的智能有限，促使我们重新思考将RL与人类智能相结合。本文提出一种人引导RL框架，以在模拟器学习和现实世界部署过程中提升RL性能。该框架允许人类干预RL的控制过程，并根据需要提供示范，从而提高RL的能力。提出一种创新的人引导RL算法，利用一系列机制提高人引导的有效性，包括人引导学习目标、优先人经验重放和基于人干预的奖励塑造。我们的RL方法在模拟环境中进行训练，然后转移到现实世界中，并且我们开发了一种去噪表示用于域适应，以减小模拟与现实之间的差距。通过模拟和现实世界实验验证了我们的方法，仅基于微小的神经网络和图像输入就能在多样且动态的环境中实现UGV导航。我们的方法在到达目标和安全性方面比现有的基于学习和基于模型的导航方法表现更优，并且对输入特征和自身动力学的变化具有鲁棒性。此外，我们的方法允许使用小规模的人类示范来改进训练好的RL智能体，并在线学习期望的行为。

关键词：强化学习；人引导；导航；虚实迁移；无人地面车辆

一、引言

无人地面车辆（UGV）因其在货物配送方面的多功能性，以及在人类和动物难以涉足的具有挑战性或危险环境中执行任务的能力，已成为改善人类生活的重要途径。通常，UGV的导航系统由感知、规划和控制等一系列模块组成，其中规划模块负责生成轨迹，以便在不与其他物体碰撞的情况下到达目标点。传统的规划方法通常基于采样和优化技术。然而，这些方法要求预先获取周围环境信息并建立地图。这种模式存在两个局限性：其一，降低了工作效率，削弱了在无地图情况下的适用性；其二，依赖于激光雷达等昂贵的传感器，导致成本高昂。

上述缺陷促使人们深入研究仅使用摄像头和数据驱动的导航策略。在这方面，众多深度学习（DL）方法被用于获取各种图像输入，并输出纵向和横向动作来控制UGV。这样一来，无需预先建立地图，程序也大大简化。特别是基于深度强化学习（RL）的策略前景光明，因为RL智能体可以通过试错独立收集数据并优化策略。这使得基于深度RL的策略比其他DL方法更能抵抗分布转移问题，从而提高性能。尽管如此，基于深度RL方法的导航策略仍面临两个主要挑战。第一，RL算法难以利用先验知识，这使得获取策略（即训练）的计算成本极高。此外，当面对复杂或稀疏奖励问题时，RL智能体容易陷入局部最优，导致训练结果不佳。第二，基于RL的策略在运行时的安全性仍令人担忧。RL无法处理硬约束，也无法实现绝对安全，在处理与训练场景不同的场景时风险会增加。这意味着RL策略在从模拟到现实（虚实迁移）或面对环境变化时可能会失败。

我们提出一种人引导RL框架，以解决上述问题。首先，在训练过程中，人类专家可以取代RL智能体并提供示范，防止智能体陷入局部最优，提高数据质量。这样，我们可以降低训练成本，增强基于深度RL策略的性能。其次，当RL智能体在实际中部署时，人类专家可以即时拯救RL智能体，提高基于RL的UGV的运行时安全性。我们的方法还允许基于这些小规模的人类示范对RL智能体进行微调，以便它未来能够独立解决类似问题，而这对于传统RL算法来说很难实现。通过这种方式，我们提高了导航策略的实用性和适应性。使用所提出的框架，我们训练了一种基于RL的UGV导航策略，并在有动态障碍物的模拟和现实世界环境中评估其性能。实验结果表明，我们的方法优于各种现有的基于学习和基于模型的导航策略。

总之，我们开发了一种人引导RL方法，仅使用视觉图像输入来解决UGV导航问题，其性能优于其他现有方法。本文的主要贡献如下：

1. 我们提出一种人引导RL框架，用于解决UGV在模拟和现实世界中的低成本导航问题。
2. 我们提出一种新颖的人引导RL算法，该算法以多种方式整合人类先验知识，提高了智能体的学习能力。
3. 我们在现实世界实验中验证了所提出框架相对于现有方法的优势，并展示了我们的框架对训练好的RL策略的微调能力。

本文其余部分的组织如下：第二节介绍相关工作；第三节详细阐述所提出的方法；第四节描述实验过程；第五节给出结果和分析；最后，第六节总结主要结论。

二、相关工作

（一）人引导强化学习

虽然RL可以处理广泛的问题，但由于缺乏先验知识，它在复杂或稀疏奖励任务中常常陷入局部最优。一些研究试图通过设计基于势的奖励塑造方法来缓解这一问题。然而，这些方法需要针对每个任务进行具体且精细的设计，限制了它们的泛化能力。由于人类拥有先验知识，因此有一些工作在RL的学习过程中引入了人类引导，这可以提高其性能，使其能够处理复杂问题。

该领域专注于提高人类引导在RL算法中的利用效率。Saunders等人使用人在回路监督，用安全的人类示范取代有风险的RL智能体动作，成功提高了RL在玩Atari游戏时的生存能力。Wu等人提出将人类示范整合到RL的数据集中，以提高训练性能，增加了自动驾驶汽车的安全性。Hester等人提高了人类示范相对于典型RL数据的优先级，Gulcehre等人引入了一个额外的缓冲区来存储人类示范，这两种方法都提高了利用人类示范的可能性，从而改善了RL的收敛性能。

一种更有效的方案是使RL智能体模仿人类行为。在没有明确策略函数的RL目标中添加了铰链损失函数，这使得人类示范更有价值，从而间接鼓励RL克隆人类动作。在具有可微策略函数的RL算法中，添加了行为克隆（BC）目标，以便更直接地从人类示范中受益。在这方面，Vecerik等人提出了一种考虑模仿人类引导的深度确定性策略梯度（DDPG）RL算法，并被验证优于普通算法。在此基础上，一些研究收集人类示范，并利用人引导RL来解决机械臂的灵巧控制问题。Wang等人在近端策略优化（PPO）RL算法中添加了BC目标，并利用实时人类干预实现了对RL引导的无人机的安全控制。在文献[25]中提出了一种人在回路RL，以实现无需奖励函数的自动驾驶汽车控制。在文献[26]中，作者利用神经网络模型提供类似人类的行为，并在演员 - 评论家RL上施加模仿学习约束，该方法在稀疏奖励交通场景的自动驾驶任务中表现良好。此外，文献[27]和[28]通过评估人类引导相对于RL策略的优势，实现了从不完善的人类引导中学习的RL。

总体而言，人引导的效率有不断提高的趋势。尽管如此，现有方法特别关注算法的某一部分，如目标函数和数据质量。本文的方法提出了一个综合框架，整合了本文开发的各种方案，以进一步提高人引导的效用和RL的性能。

（二）用于UGV导航的强化学习

该领域的研究主要集中在从感知端改进信息融合和特征提取，以提高基于RL的导航性能。一些早期策略没有考虑目标点，而是开发了针对地形的避碰策略。Wu等人开发了一种RL导航策略，该策略接收RGB图像并引导UGV的横向行为以避免碰撞，在他们随后的研究中，深度图像以及时间序列图像之间的差异被用作输入，以进一步改进导航。Martini等人开发了一种基于RL的无碰撞导航策略，该策略以深度图像为输入，输出速度和转向命令。该策略允许在模拟的森林路径上进行自主导航。根据Guan等人的研究，RL智能体被输入可行驶区域分割图像，并开发了相关的导航策略以独立避开摩托车、行人和路障。模拟和现实世界测试验证了其有效性。Kahn等人开发了一种基于RL的策略，该策略使用递归神经网络从时间序列灰度图像中提取状态信息。该策略已在室内环境中通过真实车辆进行验证，以执行无碰撞导航任务。

一些基于RL的方法已经考虑了带目标条件的导航。Quiroga等人分别设计了基于离散动作和连续动作RL算法的两种策略。导航智能体使用激光信息感知环境，并接收启发式信息来确定目标点，并已在模拟的移动机器人上得到验证。同样，以激光数据为输入，Jiang等人开发了基于双延迟深度确定性策略梯度（TD3）算法的现实世界RL导航，并评估了其在动态环境中的有效性。Lu等人进一步从图像中提取物体的空间关系，并基于该关系建立图。他们利用图神经网络提取信息，并使用优势演员 - 评论家（A2C）算法开发UGV导航策略。Chai等人提出了一种噪声优先经验重放机制来提高RL性能，并利用开发的算法进行自主导航。该性能已在模拟和现实世界的移动机器人中得到验证。Wu等人通过结合因果递归网络和软演员 - 评论家（SAC）RL算法，使RL智能体获得了良好的带目标条件的导航能力，其中可以从时间序列灰度图像中提取复杂信息。根据Zhu等人的研究，在RL导航中，目标点纯粹由视觉信息确定；因此，使用了更深的网络，如ResNet - 60，以从周围环境中提取更准确的信息。基于Ding等人提出的特征提取网络，通过同时处理语义分割图像和深度信息来提高RL导航性能。

总体而言，基于RL的导航策略越来越依赖复杂的特征提取方法和更深的神经网络架构来提高性能。这导致策略臃肿，难以在实时嵌入式系统中实现。此外，现有方法没有有效地解决学习过程效率低下和RL方法安全性差的问题。在我们的方法中，我们使用人类引导来提高RL性能，表明简单的网络和一般的图像输入足以在不堆叠复杂技巧的情况下实现良好的导航结果。

三、方法

（一）概述

所提出的RL导航框架如图1所示。一个接收语义图像和目标信息的RL智能体在具有动态行人与静态障碍物的复杂模拟场景中进行训练，以导航车辆。由于缺乏先验知识，传统的RL智能体与环境之间的交互可能会导致次优策略。因此，在所提出的框架中，人类可以间歇性地监督RL训练过程，并通过操纵操纵杆来引导RL智能体采取适当的行为，避免陷入局部最优。当人类干预时，他们将完全控制该系统，当他们从系统中脱离时，控制权将返回给RL。在这种情况下，会创建一个混合交互历史（图中的梯度线），其中包括RL的试错经验以及人类引导的经验。在该框架内，我们提出了一系列方法，以实现人类引导与RL智能体之间的无缝集成，从而显著提高RL训练性能和效率。

在完成上述导航任务的训练后，RL智能体被转移到UGV上，并用于现实世界的导航。虽然在模拟和现实世界的实现中输入和输出是对齐的，但场景特征和自身动力学发生了变化。一个主要目标是使转移的RL智能体能够处理现实世界中的大多数任务。即便如此，由于模拟与现实之间的差距，RL智能体在某些极端情况下仍可能失败（即导致碰撞）。因此，所提出的框架允许人类在现实世界中控制由RL驱动的UGV，其中RL策略可以通过从人类动作生成的示范中学习，即时进行微调。通过这种方式，所提出的导航策略可以适应广泛的条件。

图1：所提方法的总体框架。RL智能体在模拟环境中进行导航任务训练，人类可以提供间歇性引导（红色虚线）。耦合动作下与环境的交互数据用于高效的RL训练。一系列域增强技术用于更好的虚实迁移。训练完成后，RL策略被转移到现实世界的导航任务中，必要时人类仍可参与，以防RL因虚实差距偶尔无法运行。然后，RL可以通过那些与环境的人类参与交互进一步改进，实现微调。

图中展示了基于强化学习（RL）的UGV导航系统在模拟环境训练以及现实环境微调的过程，还体现了人类监督者（Human Supervisor）在其中的作用。主要分为以下几个部分：

虚实迁移技术组成：包含用于域适应的去噪编码表示（Denosed Encoding Representation for Domain Adaptation）和用于域随机化的多样模拟参数设置（Diverse Simulation Parameter Settings for Domain Randomization）。

模拟环境训练：提出的RL智能体（Proposed RL Agent）包含演员（Actor）和评论家（Critic），与模拟环境（Simulation Environment）进行交互。RL智能体输出RL动作（RL action），人类监督者可以输出人类动作（Human action），两者经过选择得到采用的动作（Adopted action）作用于模拟环境，产生的交互数据（Interaction data）用于RL智能体的训练。

向现实环境迁移：训练好的RL智能体通过策略迁移（Strategy transfer）进入现实环境进行微调（Fine - tuning）。在现实环境（Real - world Environment）中，同样RL智能体输出RL动作，人类监督者输出人类动作，经选择后的动作作用于现实环境，产生的包含人类参与的交互数据（Human - involved interaction data）反馈给RL智能体用于微调。同时还存在任务迁移（Task transfer），将模拟环境中的任务迁移到现实环境中。

（二）问题表述

面向目标的端到端导航可以被表述为一个马尔可夫决策过程（MDP），它由一个元组\(\{S, A, P, r\}\)定义。在给定的时间步\(t\)，智能体从状态空间\(S\)接收环境状态变量\(s_t\)，并从动作空间\(A\)输出一个控制动作\(a_t\)。作为对该动作的响应，环境生成一个奖励信号\(r_t \in \mathbb{R}^1\)，并遵循状态转移动态\(P\)转移到一个新的状态\(s_{t + 1} \in S\) 。在这种情况下，目标是找到一个策略\(\pi\)，在任何时间步\(t\)，其动作\(a_t \sim \pi(\cdot | s_t)\)能够最大化折扣累积奖励\(\sum_{t = 0}^{\infty} \gamma^t \cdot r_t\)，其中\(\gamma \in (0, 1]\)是折扣因子。

相应地，我们通过定义状态空间、动作空间和奖励函数来描述这个问题。

1. 状态空间

状态空间\(S\)包含有关周围环境、自身智能体以及目标的信息。可以表示为：
\[\mathcal{S} = [\mathcal{S}^{env}, \mathcal{S}^{ego}, \mathcal{S}^{goal}], \quad(1)\]
其中\(\mathcal{S}^{env}\)表示从视觉周围环境中提取的信息，\(\mathcal{S}^{ego}\)表示自身智能体的内部信息，包括自身智能体的速度，\(\mathcal{S}^{goal}\)提供与目标相关的特征。

具体来说，\(\mathcal{S}^{env}\)是从自动编码器网络的编码器收集的潜在表示，它可以减少冗余和对抗信息。在这方面，从车载前视单目摄像头收集的压缩RGB图像\(i_{RGB}\)经过语义分割操作处理，如下所示：
\[i = \Phi_{seg}(i_{RGB}; \theta_{seg}), (2)\]
其中\(i \in \mathbb{R}^{H \times W}\)是具有高度\(H\)和宽度\(W\)像素的语义图像，\(\Phi_{seg}(\cdot; \theta_{seg})\)是带有参数\(\theta_{seg}\)的分割函数。

然后，通过对三个时间上连续的图像进行卷积编码生成潜在表示。在给定的时间步\(t\)，这个过程表示为：
\[z_t = \Phi_{enc}([i_{t - 2}, i_{t - 1}, i_t]; \theta_{e}), (3)\]
其中\(z \in \mathbb{R}^{L}\)是大小为\(L\)的潜在变量，\(\Phi_{enc}(\cdot; \theta_{c})\)是带有参数\(\theta_{c}\)的编码函数。因此，\(\mathcal{S}^{env}\)通过下式获得：
\[\mathcal{S}^{env} = [z]. (4)\]

然后，\(\mathcal{S}^{ego}\)表示为：
\[\mathcal{S}^{ego} = [v_{ego}], \quad(5)\]
其中\(v_{ego}\)是自身智能体的整体速度。\(\mathcal{S}^{goal}\)表示局部目标，它可以表示为：
\[\mathcal{S}^{goal} = [d, \alpha], \quad(6)\]
其中\(d\)和\(\alpha\)分别是到目标位置的归一化相对距离和角度。这里我们考虑二维坐标，\(d\)通过下式计算：
\[d = \frac{\left\| p_{goal}, p_{ego} \right\|_2}{d_{max}},\]
其中\(p_{goal}\)和\(p_{ego}\)分别是目标位置和当前自身位置的坐标向量，\(\left\| - \right\|_2\)是L2范数，\(d_{max}\)是距离上限。\(\alpha\)通过下式计算：
\[\alpha = \text{wrapToPi}\left[\arctan\left(\frac{p_{goal, y} - p_{ego, y}}{p_{goal, x} - p_{ego, x}}\right)\right] / \pi, \quad(8)\]
其中\(\text{wrapToPi}\)表示将计算出的角度转换到\([-\pi, \pi]\)的操作，\(x\)和\(y\)分别表示坐标的纵向和横向轴。

2. 动作空间

动作空间\(A\)包含踏板和转向命令，为自身智能体提供完全控制。可以表示为：
\[\mathcal{A} = [p, \delta], \quad(9)\]
其中\(p \in [-1, 1]\)是踏板指令，正值表示加速，负值表示减速；\(\delta \in [-1, 1]\)是归一化的转向指令，正值和负值分别表示向左和向右转向。

3. 奖励函数

奖励函数指定了自身智能体应表现出的行为。目标是导航到目标位置、避免碰撞、最大化行驶效率并保持平稳的横向行为。

首先，当自身智能体到达目标位置时，它将获得即时奖励\(r_{goal}\)：
\[r_{goal} = \begin{cases} C_1 & \text{如果到达目标} \\ 0 & \text{否则} \end{cases}\]

其次，当自身智能体与其他物体碰撞时，它将受到一个大的负奖励\(r_{fail}\)的惩罚：
\[r_{fail} = \begin{cases} C_2 & \text{如果发生碰撞} \\ 0 & \text{否则} \end{cases}\]

第三，自动驾驶车辆应快速到达目的地，这鼓励更高的速度。相应的奖励\(r_{speed}\)定义为：
\[r_{speed} = \omega_1 \cdot v_{ego}, \quad(12)\]
其中\(\omega_1\)是权重。

最后，较大的横向操作会带来更大的负奖励\(r_{lat}\)：
\[r_{lat} = \omega_2 \cdot |\delta| \cdot (1 + v_{ego}), \quad(13)\]
其中\(\omega_2\)是权重。这里\(r_{lat}\)随速度增加，因为考虑到车辆动力学，横向加速度与速度相关。

总体奖励函数通过将上述四个子项相加来建立：
\[r = r_{goal} + r_{fail} + r_{speed} + r_{lat}. \quad(14)\]
显然，如果\(r_{goal}\)被激活，则表示找到了解决方案；如果\(r_{fail}\)被激活，则表示失败。

（三）人引导强化学习算法

强化学习是解决上述问题的工具。由于强化学习算法样本效率低且无法利用先验知识，人引导可以降低其生成次优策略的风险。在本节中，我们介绍将人引导纳入离策略强化学习架构的四种方法。我们的目的是整合所有这些人引导方法，创建一种多人类引导（Multi-Hug）强化学习算法来解决问题。

1. 探索机制

强化学习通过向其策略中添加随机噪声来探索环境。当人类参与强化学习的训练过程时，人类可以根据自己的先验知识接管并展示一些行为，从而增强强化学习的探索过程并提高训练数据质量。

在这种情况下，训练过程中强化学习的行为策略\(\pi^{b}\)可以表示为：
\[ \pi^{b}(a_t | s_t) = \begin{cases} \pi(a_t | s_t) & \text{如果未发生人类干预} \\ \pi^{H}(a_t | s_t) & \text{如果发生人类干预} \end{cases} \quad(16)\]
其中\(\pi(a_t | s_t)\)是强化学习的策略，\(\pi^{H}(a_t | s_t)\)是人类的策略。

基于此，在训练过程中，智能体与环境的交互会生成一个元组\(\zeta\)，该元组随后存储在包含训练数据的经验回放缓冲区中。需要注意的是，当\(M_t = I\)时，\(a_t\)指的是\(a_t^{H}\)。

2. 奖励塑造

奖励塑造对于解决具有稀疏奖励的马尔可夫决策过程的次优问题是有效的。强化学习训练过程的观察者可以将人类接管的时刻，即干预时刻，视为负反馈，因为此时智能体可能正接近失败或局部最优。干预事件\(I\)通过以下方式识别：
\[ I_t = \Lambda_{i = 1}^{t1} (M_i = 0) \land (M_t = I) \quad(18)\]
其中\(\Lambda\)是逻辑“与”符号，表示仅考虑一系列连续演示的第一步。然后，基于干预的奖励塑造项定义为：
\[ r_{shape} = \begin{cases} -C_2 & \text{如果 } I_t = 1 \\ 0 & \text{否则} \end{cases} \quad(19)\]
这表明干预触发的状态将受到与失败相同的负值惩罚。在使用时，该项会添加到原始奖励函数中。

3. 优先经验重放

优先经验重放（PER）机制可以通过提高数据利用效率对强化学习性能产生显著影响。一个直观的想法是，基于人类演示相对于强化学习动作的优势，可以优先考虑具有高价值的人引导。在PER中，通常通过使用时间差分（TD）误差为所有元组分配一般优先级。考虑到人引导，人类演示和强化学习动作之间的Q值差异可用于为涉及人类演示的经验元组赋予额外的优先级级别。

在传统的PER中，特定元组\(\varsigma_i\)的优先级定义为：
\[ \rho_i = |\Delta^{TD}| + \varepsilon \quad(21)\]
其中\(\varepsilon \in \mathbb{R}^{+}\)是一个小的正常数，以确保值大于零，TD误差\(\Delta^{TD}\)基于值函数\(Q(\cdot; \theta)\)定义，其中\(\theta\)表示值函数的参数。此后，若无歧义，将省略符号\(\theta\)。

基于此，在基于人引导的PER方法中，新的优先级\(\hat{\rho}_i\)定义为：
\[ \hat{\rho}_i = \rho_i + \beta \cdot \max(0, Q(s_i, a_i^{H})Q(s_i, a_i^{RL})) \quad(22)\]
其中\(\beta \in [0, 1]\)是缩放系数，指数Q值差异称为Q优势，表示存在人类演示时人类动作相对于强化学习动作的优势度量。

作为结果，元组\(\varsigma_i\)的检索概率由以下概率密度函数\(p_2\)计算：
\[ p_2(\varsigma_i) = \frac{\hat{\rho}_i^{\alpha}}{\sum_{k = 1}^{|D|} \hat{\rho}_k^{\alpha}} \quad(23)\]
其中\(\alpha\)是优先级指数(未定义)，\(|D|\)是经验回放缓冲区的大小。

4. 学习目标

当有人类演示可用时，让强化学习智能体模仿人类行为是合理的。因此，可以在最大化Q值的原始学习目标中额外添加一个行为克隆（BC）目标。

通过使用神经网络作为策略函数的近似器，我们将目标\(L^{\pi}\)定义如下：
\[ L^{\pi} = \mathbb{E}_{s_t, a_t \sim D} [-\log \pi(a_t | s_t)] + \omega \cdot \text{sim}(\pi(a_t | s_t), \pi^{H}(a_t | s_t)) \quad(24)\]
其中\(\omega\)是BC目标的权重，\(\text{sim}(\cdot)\)是两个变量的相似度度量。特别地，权重\(\omega\)由Q优势而不是常数计算：
\[ \omega = \frac{\max(0, Q(s_t, a_t^{H})Q(s_t, a_t^{RL}))}{\sum_{t = 1}^{T} \max(0, Q(s_t, a_t^{H})Q(s_t, a_t^{RL}))} \quad(25)\]
并且相似度函数可以根据变量的形式而变化。在不失一般性的情况下，我们考虑一个非确定性的强化学习策略和一个确定性的人类动作。然后，相似度通过以下方式计算：
\[ \text{sim}(\pi(a_t | s_t), \pi^{H}(a_t | s_t)) =\text{NLLGaussian}(\pi^{H}(a_t | s_t) | \pi(a_t | s_t)) \quad(26)\]
其中\(\text{NLLGaussian}\)表示高斯负对数似然。在实践中，假设确定性人类动作的方差与强化学习策略的方差相同，以便于计算。

根据上述公式，当在相关经验元组中提供人类演示时，强化学习策略函数除了其原始目标（即最大化Q值）之外，还将模仿该演示。此外，模仿人类行为的重要性由人类演示相对于强化学习动作的优势决定。

算法1：Multi-Hug RL
输入：最大 episodes 数\(E\)，批量大小\(N\)，策略网络\(\pi(\cdot)\)，值网络\(Q(\cdot; \theta)\)，空缓冲区\(D\)
对于 episode = 1 到\(E\)：
    重置环境状态并设置时间步\(t = 1\)；
    当环境状态未终止时：
        如果未发生人类干预：
            设置\(a_t = a_t^{RL}\) 且 \(M_t = 0\)；
        否则：
            设置\(a_t = a_t^{H}\) 且 \(M_t = I\)；
        结束
        获取奖励\(r_t\)和新状态\(s_{t + 1}\)；
        通过\(r_t' = r_t + r_{shape}\)添加奖励塑造项；
        将元组\(\zeta_t = \{s_t, a_t, M_t, r_t', s_{t + 1}\}\)添加到\(D\)中；
        从\(D\)中采样\(N\)个元组；
        根据公式\((22)\)（\(\hat{\rho}_i = \rho_i + \beta \cdot \max(0, Q(s_i, a_i^{H})Q(s_i, a_i^{RL})) \)）更新\(D\)中每个元组的优先级；
    结束
    更新值网络参数\(\theta\)；
    计算公式\((24)\)（\( L^{\pi} = \mathbb{E}_{s_t, a_t \sim D} [-\log \pi(a_t | s_t)] + \omega \cdot \text{sim}(\pi(a_t | s_t), \pi^{H}(a_t | s_t)) \)）中的策略目标\(L^{\pi}\)；
    更新策略网络参数\(\phi\)；
结束

5. 整合

Multi-Hug RL通过结合上述四种机制来利用人引导。整体算法过程如算法1所述。需要注意的是，本文省略了作为基础的演员评论家强化学习算法，因为它已经得到了广泛研究。

1. 外层循环（对于每个episode）

对于 episode = 1 到 \(E\)：

重置环境状态并设置时间步 \(t = 1\)；

每开始一场新的“游戏”（episode），我们都要把环境恢复到初始状态，就像每次玩游戏都要重新开始一样。同时，把时间步 \(t\) 设为 1，表示这是这一场“游戏”的第一步。

2. 内层循环（每个episode内的每个时间步）

当环境状态未终止时：

如果未发生人类干预：

设置 \(a_t = a_t^{RL}\) 且 \(M_t = 0\)；

否则：

设置 \(a_t = a_t^{H}\) 且 \(M_t = I\)；

结束

在每一场“游戏”里，只要环境状态还没结束（比如在导航任务中，还没到达目标或者还没发生碰撞），就继续进行下面的操作。这里会判断是否有人类进行干预，如果没有，智能体就按照自己的策略网络 \(\pi(\cdot)\) 来决定动作 \(a_t^{RL}\)，并把 \(M_t\) 设为 0，表示没有人类干预；如果有人类干预，就采用人类给出的动作 \(a_t^{H}\)，并把 \(M_t\) 设为 \(I\)，表示有人类干预。

获取奖励 \(r_t\) 和新状态 \(s_{t + 1}\)；

通过 \(r_t' = r_t + r_{shape}\) 添加奖励塑造项；=》基于干预的奖励塑造项定义为：
\[ r_{shape} = \begin{cases} -C_2 & \text{如果 } I_t = 1 \\ 0 & \text{否则} \end{cases} \quad(19)\]
这表明干预触发的状态将受到与失败相同的负值惩罚。在使用时，该项会添加到原始奖励函数中。

智能体采取动作后，环境会给出一个奖励 \(r_t\)，就像游戏里完成一个小任务会得到一定的分数。同时，环境会进入一个新的状态 \(s_{t + 1}\)。然后，我们会给这个奖励加上一个奖励塑造项 \(r_{shape}\)，这个奖励塑造项是根据人类干预的情况来设定的，目的是让智能体更好地学习。

将元组 \(\zeta_t = \{s_t, a_t, M_t, r_t', s_{t + 1}\}\) 添加到 \(D\) 中；

把当前的状态 \(s_t\)、采取的动作 \(a_t\)、是否有人类干预 \(M_t\)、经过处理后的奖励 \(r_t'\) 以及新状态 \(s_{t + 1}\) 打包成一个元组 \(\zeta_t\)，存到缓冲区 \(D\) 里。这样，缓冲区就会不断积累智能体和环境交互的数据。

从 \(D\) 中采样 \(N\) 个元组；

根据公式 \((22)\)（\(\hat{\rho}_i = \rho_i + \beta \cdot \max(0, Q(s_i, a_i^{H}) Q(s_i, a_i^{RL})) \)）更新 \(D\) 中每个元组的优先级；

从缓冲区 \(D\) 中随机取出 \(N\) 个元组来进行处理。然后，根据公式更新这些元组的优先级。这个公式的意思是，考虑人类动作和智能体自己动作的价值差异，如果人类动作的价值比智能体动作的价值高，就给这个元组更高的优先级。这样在后续训练中，更有价值的数据会被更频繁地使用。

3. 每个episode结束后的操作

更新值网络参数 \(\theta\)；

计算公式 \((24)\)（\( L^{\pi} = \mathbb{E}_{s_t, a_t \sim D} [-\log \pi(a_t | s_t)] + \omega \cdot \text{sim}(\pi(a_t | s_t), \pi^{H}(a_t | s_t)) \)）中的策略目标 \(L^{\pi}\)；

更新策略网络参数 \(\phi\)；

在一场“游戏”结束后，我们要更新值网络的参数 \(\theta\)，让值网络能更准确地评估动作的价值。然后，计算策略目标 \(L^{\pi}\)，这个目标既考虑了智能体按照自己策略行动的情况，也考虑了模仿人类动作的情况。最后，根据这个目标更新策略网络的参数 \(\phi\)，让策略网络能做出更好的决策。

通过不断地进行这样的循环，智能体就能在人类的引导下，不断学习和改进自己的导航策略，从而在各种环境中更好地完成导航任务。

（四）虚实迁移技术

通过在模拟环境中的训练过程获得强化学习策略\(\pi(\phi)\)。在本节中，我们介绍在强化学习训练中使用的两种技术，以使训练好的强化学习策略能够更好地泛化到现实世界的部署中。

1. 多样的参数设置

我们在模拟中设置多样的参数，作为一种域随机化（DR）技术，以更好地适应虚实迁移。DR的基本思想是设置各种模拟环境以覆盖现实世界中的分布，以便训练好的策略能够适应从模拟到现实的转换。

我们将模拟环境定义为源域\(e_{\xi}\)，将现实世界环境定义为目标域\(e_{tar}\)。在源域\(e_{\xi}\)中，一组\(N\)个随机化参数构成一种配置\(\xi \in \Xi\)，其中\(\Xi \subset \mathbb{R}^{N}\)表示配置空间。在这种情况下，DR的目标是优化强化学习策略\(\pi(\phi)\)：
\[ \phi^{} = \underset{\phi}{\text{arg min}} \left( \mathbb{E}_{\xi \sim \Xi} \left[ \mathbb{E}_{\pi_{\phi}, \zeta \sim \epsilon_{\xi}} \left[ \mathcal{L}^{\pi}(\phi) \right] \right] \right), \quad(27)\]
其中\(e_{\xi}\)和\(e_{tar}\)之间的差异被建模为\(e_{\xi}\)中的可变性。

在本研究中，考虑的配置空间\(\Xi\)包括以下随机化参数：

自身智能体的质量
相机的安装位置
相机的视场（FoV）
语义分割图像上的随机噪声

在保持推进系统不变的情况下改变自身智能体的质量，以模拟不同的动力学，使策略能够应对\(\mathcal{S}^{ego}\)中的广泛自身状态和\(\mathcal{S}^{goal}\)中的与目标相关的状态。相机的不同安装位置和视场会影响RGB图像\(i_{RGB}\)的多样性，随机噪声会增加语义图像\(i\)的多样性，所有这些都会影响\(\mathcal{S}^{env}\)中与视觉环境相关的状态变量。

2. 去噪表示

在本研究中，视觉状态变量在所有强化学习状态变量中提供的信息最多。因此，在本小节中特别处理模拟和现实世界环境中视觉状态变量之间的分布差异。

尽管期望在公式(2)中进行完美准确的语义分割，但由于语义分割错误，现实世界的图像处理技术会产生大量噪声。为了使强化学习策略能够有效地从模拟泛化到现实世界，在模拟环境中捕获并表示这些现实干扰至关重要。因此，噪声注入作为一种DR技术被采用，使强化学习能够在与现实世界场景紧密相似的条件下进行训练，并促进更稳健的策略。

为了增强强化学习在噪声环境中的去噪能力，受Vincent等人的启发，我们提出一种去噪自动编码器网络，用于建立公式(3)中的卷积编码模块，以生成降噪的特征空间。这不仅减少了图像噪声对强化学习策略决策的影响，还突出了视觉状态变量中最相关和最具信息性的特征，从而提高了策略的决策能力。

具体来说，自动编码器网络\(\Phi_{dec}(\Phi_{enc}(\cdot))\)由一个编码器模块\(\Phi_{enc}\)和一个解码器模块\(\Phi_{dec}\)组成，在模拟环境中进行训练，输入为注入噪声的图像\(\hat{i}\)，标签为无噪声图像\(i\)。为了训练该网络，通过在具有随机初始条件的模拟环境中实施连续均匀随机策略来收集数据元组\(\{\hat{i}, i\}\)。将数据集命名为\(D_{ac}\)，训练目标如下：
\[ \mathcal{L}^{enc} = \mathbb{E}_{\{\hat{i}, i\} \sim \mathcal{D}_{ac}} \left[ \left\| i - \Phi_{dec} \left( \Phi_{enc} \left( \hat{i}; \theta_{e} \right); \theta_{d} \right) \right\|_2^2 \right], \quad(28)\]
其中\(\theta_{e}\)和\(\theta_{d}\)分别表示编码器和解码器模块的参数。

一旦训练好的网络能够过滤语义图像中的噪声，我们取出编码器模块并冻结其参数。此后，这个编码器\(\Phi_{enc}(\cdot)\)能够提取输入的无噪声表示。通过这种方式，强化学习智能体可以同时适应无噪声的模拟域和有噪声的现实世界域。

四、实验验证

所提出的方法利用人类先验知识来提高强化学习在UGV导航任务中的性能。因此，我们进行实验，目的如下：首先，验证人引导强化学习比其他纳入先验知识的方法（即奖励塑造）或根本不纳入先验知识更有效；然后，证明所提出的Multi-Hug RL在解决本研究中的任务方面优于最先进的人引导强化学习方法；之后，展示所提出的导航策略在模拟和现实世界中优于现有方法；最后，通过小规模的人类在线演示来说明我们的Multi-Hug RL智能体的持续学习能力。

为了进行上述验证，在本节中，我们详细描述实验平台、设置和所使用的基线方法。

（一）实验平台

模拟实验在一台配备普通键盘的计算机上进行。该计算机采用AMD 3900X CPU和NVIDIA RTX 3080 GPU，支持实时计算。模拟软件为CARLA，算法和脚本使用Python编写。神经网络模型使用PyTorch框架建立。

现实世界实验基于Agilex机器人的HUNTER无人移动平台（图2），其动力学模型采用阿克曼转向。所使用的车载传感器是ZED2i立体双目相机，内置惯性测量单元（IMU）。计算单元是NVIDIA的JETSON Xavier NX开发者套件，它可以直接解析训练好的神经网络模型。UGV底盘通过CAN转USB模块与计算单元连接，接收处理器发送的速度和角度信息后，驱动后轮进行运动控制。

在本研究中，所有涉及的导航策略仅使用相机传感器来执行导航任务。定位信息通过视觉SLAM计算得出。所有图像处理和强化学习推理功能都在车载设备上完成。

图2：实验平台示意图。(a) HUNTER UGV，其操作系统为Ubuntu 18.04，多种功能基于机器人操作系统（ROS）。(b) HUNTER UGV上基于强化学习的导航任务流程图。

（二）人引导模式

我们设计人引导模式，以实现人类在强化学习过程中无缝参与和退出。人类与强化学习智能体具有相同的感知信息，即语义图像和到目标的距离。由于人类更擅长提供启发式指令而非精确的数值，因此人动作输入模式的设计便于人类进行启发式引导。
1. 模拟训练：在模拟环境中，人类通过按下键盘上的按键来给出指令。可以发送四种类型的指令，包括加速、减速、左转和右转。人类可以按一次键来表明其主要意图（例如左转），而按键按下的时长表示更具体的指令，例如，如果人类对当前左转的程度不满意，可以长按按键，长按时间越长，生成的指令值越大。相应指令的按键长按增长率为每秒0.2，这是根据经验确定的。通过这种方式，人类端的启发式意图被转化为强化学习算法可以利用的具体演示动作。上述过程如表1所示。

我们使用Pygame工具包在键盘和运行程序之间进行通信。当发送人类动作时，它将覆盖该时间步的强化学习动作。
2. 物理微调：现实世界中的人引导实现方式与模拟训练类似。然而，与模拟相比，由于人类与UGV之间的通信更为复杂，人类需要处理更多操作。因此，键盘被操纵杆取代，以实现更高效的人类操作。操纵杆连接到主机，人类通过观察车载摄像头的实时语义视频流和目标信息进行远程操作。数据通过5G网络在主机和UGV之间传输。操纵杆上启用了三个按钮，用于请求参与、终止参与、恢复强化学习控制，并且可以在四个方向上拉动操纵杆，对应表1中的指令。详细信息如图3所示，应用过程可在我们演示视频的最后部分找到。

图3：微调过程中人引导的流程图。

（三）基线方法

我们使用一系列基线方法来对我们的方法进行比较评估。所有基线方法的输入和输出与所提出的方法相同。
SAC：一种最先进的无人引导强化学习算法，已广泛应用于自动驾驶问题。我们训练一种基于SAC的带目标条件的导航策略，用于比较评估所提出的人引导强化学习方法的有效性。
SAC + 基于势的奖励塑造（SAC + PS）：在SAC强化学习智能体上额外赋予一个基于势的奖励项。在任意时刻，我们将到目标位置的距离这一强先验信息作为额外的奖励信号，进一步鼓励强化学习智能体到达目标。我们训练这个基线，以研究我们的人引导是否优于传统的纳入先验知识的方法。
SAC + BC：是具有深远影响的人引导强化学习算法TD3 + BC的变体。TD3 + BC是一种为离线强化学习开发的确定性强化学习模型，通过在原始强化学习目标中添加归一化的BC目标来实现良好的性能。我们继承其主要原理，并基于SAC算法实现了SAC+BC方法，它代表了最先进的人引导RL方法。因此，我们可以用它来比较评估所提出的Multi-Hug RL算法的先进性。
HACO：是Human-AI Copilot Optimization（HACO）的变体，HACO是一种人引导的离线RL算法，旨在通过创建基于余弦相似度的干预惩罚项和相关的值函数来最小化人类干预频率。我们继承其惩罚机制，以SAC为基础，并将其修改为适用于在线RL的版本，为作区分将其命名为HACO。
DQfD：是Deep Q-learning from Demonstrations（DQfD）的变体，DQfD是一种人引导的RL算法，通过在Q值目标中添加铰链损失来鼓励模仿人类行为，并确保人类示范动作的值始终比其他动作至少大一个固定差距。我们继承其值目标机制，并以SAC为基础使其成为连续动作RL，为作区分将其命名为DQfD 。
HG-DAgger：一种最先进的模仿学习（IL）算法，它可以从人在回路的示范中学习，以减轻分布转移问题，从而提高性能。我们引入它来探究人引导RL相较于IL的优越性。
TEB：一种传统的基于模型的方法，用于规划UGV到特定目标位置的路线。尽管它具有最优性，但TEB需要预先扫描周围环境并建立局部地图。在本研究中，我们将所提出的基于RL的无地图导航方法与TEB在多个性能方面进行比较。

表2：基于Multi-Hug RL和基线RL的UGV导航参数设置

（四）实现细节

1. 神经网络：我们基于SAC算法实现Multi-Hug RL来解决UGV导航问题。表2给出了实验参数设置。策略函数、价值函数以及编码器均使用神经网络建立。涉及的网络结构和主要参数如图4所示。需要注意的是，价值网络与策略函数结构相似，只是增加了动作变量作为输入，并且输出被替换为Q值。因此，为简洁起见，图4中未展示价值网络。
2. 模拟场景：为了训练基于RL的策略，我们在模拟器中创建了一个动态且高度随机的场景。具体来说，使用一个近似30×50米的矩形封闭区域，四周都有墙壁。如图5所示，自车的生成点（位置和方向）在整个区域内随机选择，而目标点（位置）则在距离生成点[5, 20]米的环形区域内随机生成。这个范围旨在模拟局部导航任务。自车周围的障碍物由静态物体和动态行人组成。特别地，每一集在该区域内随机生成40个行人，其中70%的行人以[0.5, 1.5]米/秒的随机速度移动，其余的静止不动。移动的行人在相对的墙壁之间不断移动，如果自车距离他们在2米以内且侵占了他们的路径（即自车的投影部分与行人的路线重叠），他们就会停下来。总体而言，自车需要在不与任何墙壁或障碍物碰撞的情况下到达特定的目标位置。

我们利用CARLA模拟器开发虚拟环境。模拟器的相机传感器可以直接输出语义分割图像，其中包含三种语义信息：可行驶区域、行人以及其他不可行驶区域。这里我们将行人单独区分出来，因为他们是移动的物体，需要特别关注。从模拟器收集的示例语义图像如图6（a）所示，其中的噪声是根据前面提到的DR技术设置的。其他DR变量如下：对于每一个训练集，车辆的质量随机设置为其正常质量的0.5到1.5倍，相机的安装高度在[0.5, 1.1]米之间随机选择，视场在[90, 100, 110, 120]度之间随机选择。模拟采用固定的渲染频率10Hz，而RL智能体的工作频率为5Hz，这意味着MDP的一个单位时间步t为0.2秒。自车遵循阿克曼转向特性，自车的最大纵向速度为1米/秒，以适应低速的现实世界场景。
3. 现实世界场景：在现实世界实验中，由RL驱动的UGV在大学校园场景中执行局部导航功能，任务是到达附近的目标区域。周围有静态和移动物体，如图7所示，UGV必须避免与任何物体碰撞。移动物体包括真实的人和移动平台（其他载物UGV）。在定性实验中，我们聘请人类参与者来测试该策略的可行性。在定量实验中，我们使用图7（c）中所示的两个具有可控且精确执行能力的移动平台来扮演移动物体的角色，以便我们能够公平地比较不同的策略。具体来说，这两个移动平台在图7（c）所示的区域内以1米/秒的速度往返行驶。它们同时出发，方向相反，初始时有2米的距离差。

目标相关的距离信息可以通过GPS（室外）和相机等技术获取。在我们的实验中，我们使用基于深度相机的视觉SLAM来实现这一功能。我们利用SegFormer（一种成熟的工具）在接收到实时采集的图像后生成语义分割图像。语义分割的物体也被分为与模拟中一致的三类。以这种方式生成的语义图像如图6（b）所示，其中由于行驶振动、光照条件和复杂的周围信息而存在分割噪声。接收状态信息和做出决策的频率为5Hz，与模拟保持一致。UGV的动力学和周围环境与模拟中的不同，这可以更好地体现基于RL的策略的泛化能力。

图4：相关神经网络架构。(a) 训练一个编码器解码器网络以过滤输入语义图像中的噪声。(b) RL智能体的策略网络，其中（a）中训练好的编码器用于生成去噪的紧凑表示，作为RL的环境信息。

图5：导航任务示意图。(a) 模拟中的场景定义，自车生成点在封闭区域（浅灰色）内随机选择，而其目标位置（星号）在其周围的环形区域（深灰色）内随机生成。(b) 模拟中的渲染场景，自车应到达目标（红色点，在场景中可视化）且不与任何静态或移动物体碰撞。

图6：从（a）模拟器和（b）现实世界车载处理单元收集的示例语义图像。为了进行数据增强，将错误分割的矩形区域噪声添加到（a）中，其与（b）中现实世界分割噪声相似。

图7：现实世界导航任务示意图。(a) 场景图示。(b) 有真实人员参与的场景图示。(c) 用于定量评估的移动平台参与的场景图示。

（五）评估指标

UGV导航策略在模拟和现实世界实验中进行评估。本节描述了用于评估导航性能的指标。
1. 模拟：RL训练在模拟环境中执行，我们使用一集的平均奖励来评估综合训练性能。之后，使用一系列具有随机生成场景特征的模拟集来测试训练后的RL智能体。为了评估这个过程，我们使用安全率、成功率和到达时间。安全率和成功率分别根据无碰撞和在总集数内达到目标的集数计算。在所有智能体都成功的集数内计算到达目标所需的时间。
2. 现实世界实验：导航策略部署在两个现实世界场景（静态和动态）中。尽管在两个场景中都消除了周围环境的随机性，但根据文献[47]，我们对每个策略进行五次试验以减少偶然不确定性。除了用于模拟中训练后RL智能体的评估指标外，我们还提供四个指标来进一步评估成功试验中的轨迹规划性能：1）一次试验的平均速度，它表示移动性和效率；2）到达目标所需的行驶距离，用于评估轨迹规划的效率和智能程度；3）一次试验的平均曲率，用于衡量轨迹规划的智能程度；4）一次试验的平均角加速度，用于评估轨迹的横向平滑度。

五、结果与分析

在本节中，我们首先在模拟环境中训练并评估所提出的和基线RL导航策略。然后，将表现良好的策略转移到我们的现实世界UGV上，并进行全面比较。最后，我们测试人引导RL策略的微调可行性。

（一）模拟中的训练与自主导航

1. Multi-Hug RL的性能评估：首先，我们将所提出的Multi-Hug RL算法与其他RL基线进行评估比较。通过使用相同的随机种子序列对每个方法进行五次实验，并仅在特定集数中让人类参与者参与，实现了公平比较。具体来说，对于有人参与的RL方法，人类仅在每1000集的第100到200集参与。训练奖励如图8所示。普通SAC由于缺乏有效的探索机制，其曲线上升缓慢。相比之下，所有纳入先验知识的RL方法效率更高，这证实了RL可以从先验知识中受益。通过有效利用人引导，所提出的RL智能体迅速改进其策略，达到最高的渐近性能，并且性能变化最小。HACO基线记录了第二好的结果，其次是DQfD、SAC + BC和SAC + PS。这些结果表明，人引导由于其直接性和传达更有针对性先验信息的能力，在RL中比奖励塑造更能有效提高学习效率。即便如此，SAC + BC和DQfD在最后阶段表现下降，并且它们在不同试验中的性能差异很大，这表明BC目标与RL的直接结合会导致不稳定性。相比之下，所提出的方法允许RL根据人类相对于RL策略的优势进行不同的学习，对成熟的RL策略的干扰较小。此外，我们的方法独特地将RL中的所有人引导机制融合在一起，使其在学习效率、渐近性能和稳定性方面全面优于HACO。因此，所提出的方法在现有基于人引导的RL方法中表现卓越。

对训练后的RL智能体在安全性、成功率和到达目标时间方面进行比较。除了RL智能体，提供引导的人类也被要求进行此测试以提供基准。通过在50个不同的随机场景中导航来评估每个候选策略的性能。结果如表3所示。所提出的RL智能体、DQfD和SAC + BC在所有试验中都是安全的，但它们实现目标的能力差异显著。DQfD和SAC + BC经常陷入无法逃脱的困境，导致它们永久停止并无法完成目标。相比之下，其他RL基线在实现目标方面表现更高，但在不同程度上牺牲了安全性。之后，评估这些成功试验中的时间效率。由于人类到达目标所需时间更长，RL导航可以被认为更具时间效率但安全性较低。DQfD和SAC + BC严重依赖人引导，这导致它们在RL候选策略中时间效率最差。相比之下，所提出的算法平衡了人引导和RL目标，将安全性与效率相结合，实现了最佳性能。上述所有结果表明，所提出的人引导RL方法在模拟中优于其他基线方法。

2. Multi-Hug RL的消融研究：然后，进行消融研究以探究Multi-Hug RL方法中每个组件的贡献。在第三节C部分的四个组件中，由于人参与的探索机制是RL中存在人引导的前提，因此无需对其进行消融。相应地，在训练阶段分别对其他三个组件，即人引导奖励塑造（H-RS）、人引导PER（H-PER）和人引导学习目标（H-OB）进行消融。基于与前面部分相同的设置，进行五次试验。比较平均奖励的平均值，计算消融候选策略相对于所提出方法的百分比，如图9所示。在整个训练过程中，去除H-RS会导致大约3%-4%的性能损失，表明其贡献相对较小。H-PER在加速RL学习进程方面表现显著，在早期阶段如果没有它，奖励会显著下降（20%-30%），并且最终得分会损失约8%。H-OB对Multi-Hug RL的渐近性能影响最大，如果没有所提出的目标函数，智能体的最终奖励会降低30%。如上所示，每个组件都对Multi-Hug RL的学习能力有贡献。

图8：不同RL方法的训练奖励：(a) 所提方法，(b) SAC + BC，(c) HACO，(d) DQfD，(e) SAC + 基于势的奖励塑造，(f) 普通SAC。误差条表示标准差，下同。

图9：消融研究结果，矩阵中的数字表示在相同训练阶段，消融候选策略的平均奖励值相对于所提方法的比率。

（二）现实世界中的自主导航性能

将第五节A部分中训练良好的RL策略转移到我们的UGV平台上。我们采用基于所提出方法、SAC + BC、HACO、DQfD和普通SAC的RL导航策略，因为训练后SAC + PS与普通SAC表现高度相似。此外，模仿学习基线HG-DAgger和传统基于模型的基线TEB也参与比较评估。该评估旨在探究我们的方法相对于现有基于学习（人引导RL、普通RL、IL）和基于模型方法的优势。

我们策略可行性的定性评估在演示视频的第12部分展示，其中UGV可以在各种环境（室内和室外）中避开动态障碍物到达目标。

定量实验在静态场景（图7（a））和动态场景（图7（c））中进行。自车UGV的最大速度设置为0.6米/秒。初始位置和目标区域在两个场景中手动设置且保持不变，它们之间的直线距离约为6.5米。为了确定候选策略的目标达成能力，我们对每个策略进行五次试验，结果如表4所示。所有七种策略都能够在有静态障碍物的场景中完成导航任务，但它们到达目标所需的时间所衡量的效率差异很大。所提出的策略在所有试验中规划性能最佳，使用最少的时间达到目标（与所有其他候选策略相比，p<0.05）。基于模型的策略TEB排名第二，但其性能在不同试验中波动。在未知全局地图的情况下同时进行地图构建和规划所产生的不确定性是部分原因。HG-DAgger、HACO和普通SAC的平均时间消耗大致相同，但RL策略的变化更大，IL更稳定。DQfD和SAC + BC在所有试验中得分最低，这与它们在模拟中的性能排名形成对比。至于动态场景，DQfD、SAC + BC和HG-DAgger未能完成任务。特别是，DQfD和SAC + BC被动态物体困住，在障碍物前冻结。虽然它们保证了安全性，但规划性能不尽人意。HG-DAgger每次都与动态物体碰撞，这可能是由分布转移造成的。所提出的策略击败了其他三个对手，其次是普通SAC（它们的性能差异p<0.001）。与基于RL的策略相比，TEB在有动态物体存在时性能明显下降。这表明RL方法具有卓越的泛化能力。总体而言，动态障碍物场景带来了额外的挑战，削弱了传统基于模型的方法并使IL失效。显然，RL在泛化方面表现更好。然而，严重依赖模仿人类策略的DQfD和SAC + BC未能有效执行，HACO表现较差。这些观察结果突出了我们方法的独特优势。

为了更好地理解不同策略在目标达成能力方面的差异，我们提供了多个指标来评估综合性能。静态场景1的结果如图10所示。图（a）和（b）中的平均速度和行驶距离共同决定了导航效率。我们的策略在所有策略中速度最快，并且与TEB相比行驶距离更短，这解释了其最高的导航效率。尽管HACO和普通SAC速度较高，但它们的行驶距离比TEB长得多，导致花费时间更长。相比之下，DQfD、SAC + BC和HG-DAgger移动速度要慢得多。它们对人类演示的严重依赖解释了这些结果，这与表3中的模拟结果一致。除了评估规划能力的距离指标外，图10（c）中所示的平均曲率可以进一步描述行驶轨迹的直线度。此外，图（d）中的平均角加速度描述了驾驶的平滑度。这两个指标的性能排名与距离指标的排名非常相似，其中HACO和普通SAC被证实具有显著的激进性和动态性。然后我们在动态场景2中评估这些策略。在图11中，由于DQfD、SAC + BC和HG-DAgger无法完成任务，因此未包含它们。我们的策略在候选策略中保持最高的平均速度，同时与HACO和普通SAC相比，最小化了行驶距离和曲率，这合理地解释了其在表4中的良好效率。其规划横向行为的能力也通过最小的角加速度得到体现。基于模型的TEB在这个动态场景中大幅降低了速度，这突出了RL导航的优势。

此外，我们在视频的第3部分测试了我们策略的泛化能力。通过第三节D部分中的虚实迁移技术，我们的策略在转移到具有不同动力学的另一个UGV上时仍可以执行导航任务。此外，即使输入图像分割效果不佳，它也能在移动物体场景中执行所有功能。因此，我们策略的应用可以扩展到更广泛的情况。

图10：不同策略在现实世界静态场景中的综合性能。(a) 一集的平均速度。(b) 到达目标前行驶的距离。(c) 一集的平均曲率。(d) 一集的平均角加速度（绝对值）。

图11：不同策略在现实世界动态场景中的综合性能。(a) 一集的平均速度。(b) 到达目标前行驶的距离。(c) 一集的平均曲率。(d) 一集的平均角加速度（绝对值）。

（三）通过人引导在未训练场景中进行微调

鉴于传统RL方法依赖大规模数据来迭代优化其目标（长期价值估计），并且在现实世界中试错成本高昂，训练后的RL智能体很难从少量数据中有针对性地提升自身能力。而我们的方法，由于所提出的学习机制，具备高效微调的潜力。因此，本节测试基于我们Multi-Hug RL的导航方法利用小规模在线人引导进行微调的可行性。

将UGV放置在一个极端场景中，该场景的障碍物类型和视觉特征超出了训练数据集的范围，这可能导致我们的RL策略失效。按照第四节B2部分的流程，一名人类参与者远程监督导航任务，并在UGV接近碰撞时提供引导。图12展示了这个过程中的一个典型时刻。当由RL驱动的UGV接近一张障碍物桌子时，人类通过操纵操纵杆接管控制权。在逃离危险情况后，RL会基于这一小部分数据（人类展示的状态和动作）进行微调。图13展示了在人引导下以及引导后的连续两集RL导航执行情况。在第一集中，RL策略生成的UGV轨迹如浅蓝色所示，有向右前方移动的趋势，如虚线箭头所示。为防止UGV与桌子碰撞，人类进行干预并接管控制，产生了图（a）中的黄色轨迹。在第一集中，人类干预两次帮助RL驱动的UGV避免失败。结果，在第二集中，RL能够独立安全地执行任务，如图（b）所示，橙色路径表示RL驱动的轨迹。详细过程在演示视频的第4部分提供。

在这个实验中，我们的策略展现出良好的微调性能，这对于基于我们RL方法的导航策略在现实生活中的部署很有前景，因为它允许利用少量人引导克服极端情况问题。这种微调能力归因于我们提出的学习目标。通过这种方式，我们的方法可以应用于广泛的场景，从而大幅减少对纯人工远程控制的需求，同时仅通过少量人引导就能确保RL的安全性和目标达成性能。

六、结论

本文提出了一种新颖的人引导RL框架，以解决UGV的导航问题。我们利用人类演示来提高RL数据质量，特别提出并整合了三种机制：人引导学习目标、优先人经验重放和基于人干预的奖励塑造，以最大化人引导的效用。我们的方法在模拟环境中针对UGV导航进行训练，经验证显著提升了RL的性能和效率，且被评估为优于现有的涉及先验知识的RL方法。借助虚实迁移技术，我们的RL策略成功应用于现实世界的UGV。在定性实验中，我们验证了该策略在包含静态和动态障碍物的多样环境中的导航能力，以及在输入特征和自车动力学发生显著变化时的鲁棒性。在定量实验中，我们评估了该策略相较于现有基于学习和基于模型的策略在可行性、安全性和效率方面的优势。本研究的进一步贡献在于验证了我们方法中在线微调的有效性，即小规模人引导可用于在线针对性地改进训练后的RL智能体。

我们的方法可广泛应用于多种场景，RL能大幅降低对纯人工远程控制的需求，而少量人引导就能确保RL的安全性和目标达成性能。本研究的局限包括基于单角度摄像头的感知系统性能欠佳，难以检测突然出现在UGV前方的低矮障碍物，可能导致潜在碰撞；另外还依赖人工监控，这可能带来负担，且缺乏检测RL故障的自动化解决方案，这是未来研究的关键方向。