（中文翻译）可解释强化学习调查：概念、算法和挑战-CSDN博客

本文链接：https://blog.csdn.net/qq_41944263/article/details/130734912

本文详细探讨了可解释强化学习（XRL）的不同方面，包括模型解释、奖励解释、状态解释和任务解释。模型解释关注代理的决策逻辑，奖励解释解释奖励函数如何影响决策，状态解释分析状态重要性，任务解释通过任务分解提供高层次理解。文章提出了一个新的分类法，强调了RL过程不同部分的可解释性，并回顾了各种方法，包括基于人类知识的XRL，这些方法在性能和可解释性方面表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文地址：

https://arxiv.org/abs/2211.06665
代码：https://github.com/Plankson/awesome-explainable-reinforcement-learning

摘要：

强化学习 (RL) 是一种流行的机器学习范例，其中智能代理与环境交互以实现长期目标。在深度学习复兴的推动下，深度强化学习 (DRL) 在广泛的复杂控制任务中取得了巨大成功。尽管取得了令人鼓舞的成果，但基于深度神经网络的骨干网被广泛认为是一个黑匣子，阻碍了从业者在高安全性和可靠性必不可少的现实场景中信任和使用训练有素的代理。为了缓解这个问题，已经提出了大量致力于通过构建内在可解释性或事后可解释性来阐明智能代理的内部工作原理的文献。在本次调查中，我们全面回顾了关于可解释强化学习 (XRL) 的现有工作，并引入了一种新的分类法，其中将先前的工作明确分为模型解释、奖励解释、状态解释和任务解释方法。我们还回顾并强调了 RL 方法，这些方法反过来利用人类知识来提高代理的学习效率和性能，而这种方法在 XRL 领域中经常被忽视。讨论了 XRL 中的一些挑战和机遇。本调查旨在提供 XRL 的高级总结，并激发未来对更有效的 XRL 解决方案的研究。相应的开源代码在 https://github.com/Plankson/awesome-explainable-reinforcement-learning 中收集和分类。

1 引言

强化学习 [196] 受到人类试错范式 [145] 的启发，在这种范式中，与环境交互是人类在没有他人指导的情况下学习的常见方式 [101]。从相互作用中，人类获得了因果关系、行动结果以及如何在环境中实现目标的经验。然后，这种经验被隐式地用于构建我们的心智模型 [157、221、228] 并进一步解决面临的任务 [23、173]。同样，强化学习通过与环境的交互自主学习，以有目的地了解环境动态并影响未来事件。从技术上讲，RL 学习将环境状态映射到动作，以最大化累积奖励 [192]。近年来，深度学习发展迅速学习 [16, 197] 促进了深度学习和强化学习的融合。因此，深度强化学习 (DRL) [47、63、136、137、180] 已成为一种新的 RL 范式。凭借深度神经网络 [7, 54, 233] 强大的表示能力，DRL 在许多领域取得了可观的性能 [18, 25, 30, 40, 116, 123, 187]。特别是在 AlphaZero [187] 和 OpenAI Five [18] 等游戏任务中，基于 DRL 的方法成功击败了人类职业选手。尽管如此，对于自动驾驶 [26、42、82、216、217] 和电力系统调度 [117、229、230、242] 等现实场景中更复杂的任务，不仅高性能而且面向用户的可解释性应该考虑的问题的安全性和可靠性。这种可解释性要求是在现实世界而不是模拟环境中使用 DRL 的主要瓶颈。

由于深度神经网络 (DNN) 的复杂主干，传统的 DRL 方法受到低可解释性的限制 [70、103、188、198]。跟踪和解释神经网络中的每个参数并扩展到整个网络是很棘手的。因此，我们不知道 DNN 考虑了哪些隐式特征以及 DNN 如何处理这些特征。这个缺点导致 DRL 模型正在变成一个黑匣子 [87, 235]，专家无法理解代理如何了解环境或代理为什么选择特定动作。这种不透明性限制了 DRL 的应用，因为大多数人不会轻易信任代理，尤其是当代理在没有解释决策过程原因的情况下做出与他们的期望完全相反的事情时。例如，在自动导航任务 [34, 158] 中，人们可能会对导航代理做出的异常引导感到困惑，而没有告诉他们可能只是为了避免交通拥堵的原因。此外，缺乏可解释性也会导致将人类知识和指导插入培训过程的障碍 [65, 168]。尽管人类知识以某些特定形式预先给定 [59, 60, 184, 236, 239]，但代理无法提取有效信息并从中受益

为了解决可解释性低的问题，已经在多个机器学习领域进行了许多可解释的研究，例如计算机视觉 (CV) 中的可解释人脸识别 [46、88、167、222] 和可解释文本分类 [8、121、189] ] 在自然语言处理 (NLP) 中。可解释机器学习旨在生成不同形式的解释，使模型对专家甚至外行都具有可解释性和透明性。它会查看黑盒代理模型内部，自动提取或生成代理为何选择此操作或在每个时间步给出此结论的解释。解释的形式可以是多种多样的，如自然语言[41、56、69]、显着图[57、86]或视频[181]。借助可解释的模型，代理可以找出潜在的缺陷并向专家解释这些缺陷以进行进一步改进

对于可解释强化学习（XRL）领域，已经进行了许多初步研究来构建XRL模型，并在产生解释方面取得了一定的成就。为了全面了解它们并总结当前的 XRL 技术，对 XRL 进行了几次调查 [35、52、77、160、211、220]。 Heuillet 等人 [77] 回顾了侧重于解释和用户类型的方法。他们只是根据解释产生的方式将 XRL 的方法分为模型结构的内在可解释性和数据处理的事后可解释性两部分。该分类直接来自 XAI [9] 的分类法。由于他们在这两部分下没有给出更深入的 XRL 分类，他们的工作是初步的，需要用 RL 的更具体方面来完成。 Puiutta 和 Veith [160] 遵循传统的可解释 AI 分类法：基于解释生成时间的后置和内在可解释性；全局和局部可解释性取决于可用的解释范围。它们只描述了一些有代表性的方法，并不旨在呈现对 XRL 的全面忽视。 Wells 和 Bednarz [220] 还列举了各种 XRL 方法。但他们只关注可用于 XRL 领域的可视化技术。Vouros [211] 将范围限制在最先进的 XRL 方法上，并给出了 XRL 的架构符号范式，而解释内容可以分为主体偏好和目标影响。 Dazeley 等人 [35] 提出了一种称为因果 XRL 框架的概念架构，它解释了 XRL 如何通过关注因果行为来生成对行为的解释。这一理论架构清晰而严谨，不仅考虑了感知、行动和事件，还考虑了目标、期望和倾向。然而，当前的 XRL 框架大多关注事件结果的感知和行动原因，这意味着现有的 XRL 技术只能用更简单形式的因果 XRL 框架来表示。格拉诺瓦等人 [52] 明确区分了可解释性和可解释性。更重要的是，他们将这些方法分为三种类型：为可理解的表示解释模型输入，为环境动力学解释转换模型，以及为 RL 代理的动作选择解释偏好模型。它启发我们关注 RL for XRL 范式的过程和结构。这些调查从不同方面提出了关于 XRL 的新分类法。然而，他们或多或少存在以下局限：（1）虽然他们中的许多人提出了自己对XRL的理解[118、133、140、211]，但目前XRL领域仍然缺乏标准，尤其是其定义和评价。方法。 (2) 这些调查提出的许多分类法不遵循 RL 范式的结构，这可能会阻碍对 XRL 机制的理解。基于 RL 的分类法是首选，因为它可以清楚地描述 XRL 方法试图关注或解释的方面，并且可以轻松地与 RL 评估方法协调成为更严格的架构。 (3) 目前的XRL调查和框架大多忽略了人类参与的影响，只有少数论文试图将基于人类知识的范式扩展到XRL领域，其结果有力地证明了这是一种有效的方法获得高可解释性和性能[240]。

为了推进XRL的进一步发展，本次调研对XRL的概念和算法进行了更全面、更专业的评述。我们首先阐明了 XRL 模型可解释性的概念，然后从用户偏好和模型性能方面对 XRL 当前的评估指标进行了系统的概述。我们提出了一种更适合 RL 的新 XRL 分类法。由于目前很难使整个 RL 范式可解释，因此所有工作都转向在 RL 范式的组件上获得部分可解释性。我们根据目标可解释部分对当前的 XRL 作品进行分类：模型、奖励、状态和任务。这四个部分解释方法的目标是为代理的行为生成解释。这种分类法比一般的粗粒度内在/事后或全局/局部分类法更专业，后者在现有 XRL 方法之间提供更清晰的区分。考虑到基于人类知识的 XRL 工作的数量很少及其重要性，我们将其分开并尝试总结这些工作并将它们组织到我们的分类中。众所周知，很少有研究人员研究这个既包括人类知识又包括 XRL 的领域。我们的工作可以总结如下：

我们通过总结关于可解释 RL 的现有文献，给出了 XRL 中模型可解释性的明确定义。此外，我们还从客观和主观两个方面提出了XRL的系统评估架构。

· 为了弥补 XRL 社区缺乏基于 RL 的架构的缺点，我们为当前的 XRL 作品提出了一种新的基于 RL 的分类法。分类法基于强化学习框架不同目标部分的可解释性：模型、奖励、状态和任务。可以在图 2 中查看分类法。

· 注意到目前基于人类知识的 XRL 是一个新兴方向，基于我们新的 XRL 分类法，我们对这些将 XRL 框架与人类知识相结合的方法进行了系统的回顾，以获得更高的性能和更好的解释。

本次调查的其余部分安排如下。在第 2 节中，我们回顾了强化学习的必要基础知识。接下来，我们讨论 XRL 模型可解释性的定义，并在第 3 节中为解释和 XRL 方法提供一些可能的评估方面。

在第 4 节中，我们描述了我们的分类并详细提供了每种类型和子类型的作品，我们的分类法的抽象图如图 2 所示。然后我们讨论了根据我们的知识结合人类知识的 XRL 作品第 5 节中的分类学。之后，我们在第 6 节中总结了 XRL 当前面临的挑战和有前途的未来方向。最后，我们在第 7 节中总结了我们的工作。本文的结构和我们的分类学工作如图 1 所示。

图 1. 调查概览。我们根据强化学习 (RL) 过程中不同部分的可解释性，将现有的可解释强化学习 (XRL) 方法分为四个分支：模型、奖励、状态和任务。更细粒度的分类将在后面的章节中详细讨论。每个类别都在图中用不同颜色展示了部分代表作品。

2 背景

强化学习范式考虑了代理如何与环境交互以最大化累积奖励的问题，其中奖励是根据代理在不同状态下的响应动作的反馈信号。具体来说，交互过程可以形式化为马尔可夫决策过程（MDP）[43]。 MDP 被描述为一个元组 𝑀 = 〈S, A, 𝑃, 𝑅,𝛾〉，其中 S 是状态空间，A 是动作空间，𝑃 : S × A × S → [0, 1] 是状态转换函数，𝑅 : S × A → R 是奖励函数，𝛾 ∈ [0, 1] 是折扣因子。在每个离散时间步𝑡，代理观察当前状态𝑠𝑡∈S并选择一个动作𝑎𝑡∈A。

这会导致从转换函数 𝑃 (𝑠𝑡+1|𝑠𝑡 , 𝑎𝑎) 绘制到下一个状态 𝑠𝑡+1 的转换。

此外，代理可以根据奖励函数𝑅（𝑠𝑡，𝑎𝑡）接收奖励信号𝑟𝑡。 agent 的核心目标是学习一个最优策略𝜋 ∗ 最大化预期贴现回报 E𝜋 [𝐺𝑡] = E𝜋 [￷∞ 𝑖=0 𝛾 𝑖 𝑟𝑡+𝑖]。为了解决这个问题，现有的强化学习方法主要分为两类：基于价值的方法和基于策略的方法

2.1 基于价值的方法

2.2 基于策略的方法

为了解决连续和高维动作空间的问题，基于策略的方法被提出作为一种有效的替代方法。一种传统的基于策略的方法是随机策略梯度（SPG）[196]，它试图优化策略函数𝜋𝜙：S×A→[0, 1]，参数为𝜙。 SPG直接以期望贴现收益最大化为目标

3 可解释的 RL 定义和测量

本节为增强 RL 框架的可解释性奠定了基础。尽管该领域的各种论文都在努力给出可解释 RL 的精确定义，但 XRL 社区尚未达成标准标准或明确共识。同时，目前大量的作品将可解释性视为一种主观感受，无需关注。这种模糊的定义会阻碍对 XRL 论文的理解和对 XRL 框架寻求的评估指标的理解。在回顾现有文献后，我们对 XRL 概念进行了进一步的详细描述，并总结了当前 XRL 的评估指标。

3.1 强化学习可解释性的定义

由于缺乏 XRL 的官方定义，XRL 方法共享许多具有相似含义的相关词，例如 explainability 和 interpretability。许多关于 XRL 的文献都提出了这些概念的标准。 Miller [133] 将可解释性定义为一个人可以理解模型做出的决定的程度。同时，Kim 等人 [97] 认为可解释性是一个人可以一致地预测模型结果的程度。至于可解释性，Lipton [118] 认为可解释性是一种事后属性，而 Molnar [140] 将其指定为为个别预测提供解释的能力。最近的工作 [211] 在可解释性和可解释性之间做出了合理的区分：可解释性是范式利用可解释模型提供解释的能力，而可解释性是提供解释的表面表示的能力。总结这些定义，我们可以得出结论，XRL 有两种可能的架构：构造一个可解释的代理或构造一个包含可解释逻辑并使其与 RL 代理一起工作的机制。

1）可解释性：可解释性代理对应可解释性，即在整个训练和测试过程中，代理的决策和内部逻辑是否透明易懂的能力。

2）可解释性：包括可解释逻辑的机制与可解释性有关，可解释性表示输出代理在使用特定输入状态产生动作时考虑的方面的能力。

XRL 中这两个术语的关系就像 intrinsic 和 post-hoc 之间的关系：可解释性是一种在构建模型时确定的能力；至于可解释性，它不仅需要有一个完成的模型，还需要有输入数据和执行，这意味着可解释性是一个事后属性。可解释性在模型的整体结构上处于更高的层次，可解释性更加具体，因为它是基于模型的工作过程。 XRL字段就是这样两种解释构成的。

在本文的下文中，我们将互换使用可解释性和可解释性，因为我们会将重点从解释类型转移到我们的新分类法上，并且我们将详细描述它们。

3.2 评价框架

在给出可解释性的清晰描述之后，我们转向 XRL 的评估。不幸的是，对于如何衡量 RL 框架的可解释性仍未达成共识。已经进行了一些初步工作来制定一些评估方法或方面。 Doshi-Velez 和 Kim [38] 提出了从应用、人和功能三个层面评估可解释性的想法。 Hoffman 等人 [83]、Mohseni 等人 [139] 在为可解释的 AI 提供合理的指标方面做出了进一步的贡献。我们总结了他们的工作并给出了可解释的 RL 范式的评估框架：

3.2.1 主观评价。主观评估基于人类的观点来评估可解释的框架。人类测试人员接受解释并构建他们自己对系统的理解。主观评估旨在记录和衡量一个人如何理解过程、事件或系统。它基于人类如何通过解释来理解模式，这是主观的，也是评价所必需的。对主观评估具有重要意义的指标可以进一步分为以下类型：1）心理模型：心理模型是指一个人如何理解模型过程和结构[157,221,228]。生成的解释促进了用户建立心智模型的过程。因此，反过来评估心智模型可以作为验证解释有效性的一个可选方面。人类测试人员的心智模型很难在他们的脑海中重建，所以目前研究心智模型的方法都是间接的。一种量化的方法是让测试人员预测代理决策 [95, 165, 166] 或模型失败 [11, 147]，然后计算命中率。命中率可以看作是对心理模型准确程度的评估。李克特量表问卷法也可以对心智模型进行定量评价[98, 104, 106, 162]。参与者根据与用户心智模型直接相关的用户认为的重要性、置信度和相关性对接收到的信息（如输入数据和生成的解释）进行评分。

2）面向用户的属性：这方面对于在现实生活中实施可解释系统很重要。要在真实场景中应用 XRL，我们必须考虑面向用户的因素，例如用户的满意度、信任度和依赖度 [20]。这些因素反映了解释的复杂程度、透明度和有用性 [50、105]。 Likert 量表问卷法仍然是衡量此类指标的可行方法 [17、32、114、115、127]。

Gedikli 等人 [50]、Lim 等人 [115] 还通过测量用户在其可解释系统中的响应时间来探索解释的效率和复杂性。对于信任和依赖方面，许多研究人员 [146, 159] 跟踪用户在可解释系统中的行为和意图，以衡量用户对生成的解释的信任和依赖

3.2.2客观评价。过度依赖人类评估将导致关注解释的说服力，而不是其他更抽象的方面，例如系统的透明度，因为人类更喜欢简单有效的解释 [75]。因此，客观评估不依赖于人为评估。这种评估类型侧重于直接测量可解释框架的属性，从而扩展了评估的广度和深度。客观评估可分为：1）模型输出性能：需要在性能和可解释性之间保持平衡，因为增强强化学习的可解释性会导致更大的计算资源消耗[52]。因此，我们需要检查可解释系统是否具有与可解释系统相同或更好的性能。对于深度学习方法，指标是关于预测的成功率和确定性 [58、102、194]。对于 RL 领域，评估方法侧重于总奖励 [14、110、200、202、210] 和任务成功率 [19、108、142、183、232]。

2）解释者保真度：解释者保真度是指解释与代理人决策的真实原因的相关性[139]。模拟实验 [165, 166] 是在专家案例中测试可解释框架的直接方法。许多研究人员设置计算可解释性并生成结果的定性解释作为保真度和正确性的证据 [148、234、235、245]。在不同的可解释系统之间进行解释比较的比较方法也是获得相对保真度的有效方法[169, 176]。

3）灵敏度和鲁棒性：灵敏度是指解释能力反映可解释系统内部模型对输入特征空间扰动的敏感性[100, 195]。灵敏度也可用于粗略测量鲁棒性，鲁棒性代表小扰动下的稳定性 [4]。为了测量灵敏度，当前的评估方法在输入 [21、21、144] 或模型参数 [1、2、51] 上添加扰动，利用生成的解释的差异来测量灵敏度和稳健性。

综上所述，根据评价数据的来源，高铁评价可分为主观评价和客观评价。这两种类型是互补的，可以组合使用以获得更精确和全面的测量。虽然我们已经建立了 XRL 方法的评估框架，但仍然缺乏针对不同 XRL 框架的具体测量方法（尤其是定量方法），需要进一步研究重点

4 RL 中的可解释性

当前可解释的 RL 作品试图解释 RL 代理的行为，而不关注整个 RL 过程，因为它太棘手了。因此，他们转向在保持性能的同时，使 RL 的部分过程对人类来说是可以理解的。 RL 任务的模型可以分为几个部分：状态、动作、奖励、模型和任务。在我们的工作中，我们根据这些分区对当前的 XRL 工作进行分类，并在图 2 中显示了分类法。我们还进行了更具体的分类，同时为每个子部分提供了一个表格来列出具体的工作。

4.1 模型解释

经典的 RL 框架训练代理人增强决策能力以获得更好的结果能力，而不关注其内部决策逻辑。然而，模型解释 XRL 方法不仅可以获得高性能代理，还可以提取内部逻辑以生成解释。基于解释逻辑类型，我们将当前的模型解释 XRL 方法分为自我解释和解释生成部分。前者试图通过提取隐含的解释逻辑，而后者以固定的解释逻辑给出解释。

4.1.1 不言自明。如果通过限制模型的复杂性将模型构造为在训练时具有固有的可解释性或自解释性，则该模型是可自我解释的 [39, 160]。这种模型也称为内在模型[160]，可以看作是一种透明的范式

图 2. 不同类型的可解释强化学习框架图。这些图表说明了不同类型的 XRL 框架如何使强化学习模型的不同部分产生解释，并帮助专家深入了解强化学习过程。请注意，这些图只是我们将要讨论的方法的抽象，更详细的代理学习过程不包含在这些图中。 𝑒𝜋 和𝑒𝑔 表示解释的两个方面：主体的内在逻辑推理和行动采取中的外在目标影响。 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡 指的是在时间𝑡的动作、奖励和状态；这些图中的红色部分是可解释的部分。 (a) 通过在其内部结构中具有可理解的逻辑操作来训练智能体是可解释的。 (b) 将奖励函数重构为一个可解释的 𝑟 ′ 𝑡 并且可以看到目标如何影响代理。 (c) 添加一个基于注意力的子模块来量化状态特征对决策的影响，如 𝑤(𝑠𝑡 ′) 在不同的时间步长 𝑡 ′ 。(d) 通过多级代理在复杂环境中获得架构级别的可解释性，高级代理通过子目标信号𝑔𝑡调度低级代理，可用于解释。

表 1. XRL 方法中的自我解释模型

人们可以很容易地理解。解释逻辑是隐含的，因为它在代理模型中。我们的工作总结了当前的自我解释模型，并根据可解释模型结构的目标将其分为两类：价值和政策。我们在表 1 中总结了这些类型的方法。

i): 基于价值。 RL 中的 Q 值表示采用状态和动作对 (𝑠, 𝑎) 的奖励的后续预期折扣和，这也可用于构建确定性或基于能量的策略。由于 Q-value 是 agent policy 的直接影响因素，所以很多基于 value-based 的 XRL 框架都关注 Q-value。线性模型 U 树 (LMUT) [120] 利用了模仿学习 (IL) [80] 的思想。 LMUT 是基于连续 U 树 (CUT) [205]（价值函数的基本回归树）的高级模型。作为决策树的一种变体，内部节点存储数据集𝑓1, 𝑓2, 𝑓3...., 𝑓𝑛 的特征，而叶节点可以看作是输入空间的一个分区。每个 LMUT 叶节点包含一个关于输入状态特征的线性模型来近似 Q 值，而不是 CUT 中的一个简单常数，并且可以进一步记录下一个叶节点的平均奖励和平均转移概率。 Q-value 𝑄 𝑈𝑇 𝑁𝑡 的近似来自于 LMUT 叶节点的单一线性模型，可以看作是量化 LMUT 中不同特征的影响的解释。研究人员为 Q 函数构建了第一个模拟学习框架，并引入 LMUT 来近似经典神经网络预测。作者还提供了训练这样一个 LMUT 的方法，可以描述为两个步骤：数据收集阶段，计算 LMUT 上的所有转换𝑇，并修改 Q 值、平均奖励以及平均转移概率；节点分裂阶段进行随机梯度下降（SGD）。一旦 SGD 在某些叶节点上得到的改进不足，框架将拆分该叶节点以解开混合特征。实验表明，LMUT 在不同环境中实现了与基于神经网络的基线相同的性能。

LMUT 使用特征的线性组合来近似 U 树叶节点处的 Q 值。

基于这种近似思想，公式表达式成为直接表示Q值的有效方式。 Maes 等人 [128] 提出了一种在简单封闭式公式空间上的搜索算法。

表达式中的变量是状态和动作分量的抽象，对这些变量的运算是一元和二元数学运算。该策略是对 Q 值的贪婪确定性策略，它总是倾向于选择具有最大 Q 值的动作。不同的操作确保了可解释性，因为它们说明了变量对 Q 值的不同影响。但是该方法不能防止组合爆炸，所以变量、常量和操作的总数被限制在6个小数目。也有一些基于公式表达式的高级方法[73, 74]，他们使用公式表达式来表示策略，这些方法将在下一节中讲到。

ii): 基于策略。与 Q 值相比，策略表示是一种更直接的方式，因为策略会立即指导代理的动作选择。在MDP模型中，策略是一个只有实数的概率分布函数𝜋(𝑠,𝑎)，所以我们需要一个更可解释的模型来表示它。这种类型的一些代表性方法如图 3 所示。

Programmatic RL (PRL) 是关于使用程序来表示策略。程序中的逻辑规则可以提供全局可解释性。当前的 PRL 方法可以分为图 3a 中的两个阶段：程序化策略生成器和程序化策略评估器。前者在固定的程序化空间更新当前程序化策略向量，通过解码向量生成程序化策略，而后者模拟生成的程序化策略对当前策略进行一步优化。现在 PRL 的主要挑战是如何选择这样一个可解释的程序化政策空间。 Verma 等人 [210] 提出了一个称为程序化解释强化学习 (PIRL) 的框架。 PIRL 在高级领域特定编程语言上构建策略。这样一个程序的所有操作

图 3. 一些自我解释的基于策略的方法的例子。 (a) 说明了当前的程序化强化学习 (PRL) 方法，该方法分为两个交替阶段。程序化策略生成器基于通过预训练 [85、204] 或预先给定的模板 [209、210] 获得的固定可解释程序化策略空间执行。在每一步，我们都会使用策略优化器的一步优化 𝜖 更新此类策略空间中的当前策略向量 𝜙 (𝜋𝑝 ′)。然后新的策略向量 𝜙 (𝜋𝑝 ) 可以解码为程序策略 𝜋𝑝 用于下一步。程序化策略评估器利用程序化策略对轨迹 𝜏𝑖 的批次进行采样，然后将其馈送到策略优化器以输出一步优化 𝜖 以进行更新。 (b) 描述了当前的两种决策树 (DT) 策略方法。 DT 策略转换方法 [14, 132] 首先通过 DRL 方法训练基于 DNN 的最优策略𝜋 *。然后，基于𝜋∗用决策树训练或转换规则𝑓提取DT策略。 DT 策略训练方法 [120、172] 通过与环境的交互直接训练 DT 策略。对于每个交互，他们维护相应 DTleaf 节点 𝐿 的 Q 值𝑄(𝐿, ·) 和权重𝑤(𝐿)。并根据𝑔选择节点进行叶节点分裂以获得更好的性能。函数𝑔考虑了基于Q值提升Δ𝑄和权重𝑤的分裂叶节点的性能提升。

语言是基于历史数据的利用。与上面提到的公式不同的是，这些操作都是基于过去的数据。这种表达可以帮助人类快速了解历史交互对目标策略的影响，从而带来比神经网络更容易解释的好处。为了在非光滑优化空间中获得最大奖励的程序化策略，他们提出了一种称为神经定向程序搜索 (NDPS) 的搜索方法。 NDPS 首先使用 DRL 找到一个近似于目标策略的神经策略，然后通过枚举程序模板并使用贝叶斯优化 [190] 或可满足性模理论来迭代更新策略以获得更好的参数。

Verma 等人 [209] 后来声称上述方法是高度次优的，他们提出了一个新的框架来通过基于镜像下降的元算法来搜索此类策略：在混合神经和程序表示的策略空间上执行深度策略梯度，然后在项目步骤中通过模仿学习进行程序综合。该框架明显优于其他 PRL 工作。对于多代理通信，Inala 等人 [85] 通过生成的代理通信图合成编程策略。 Trivedi 等人 [204] 首先学习潜在的程序嵌入空间，然后程序策略搜索将变得更加有效。同时，学习到的潜在程序嵌入可以转移并在其他任务中重复使用。

至于公式表达式，它们可以用来直接表示策略而不是值函数。这种策略称为符号策略，它由简单的简短符号操作组成。它可以从简洁的数学表达式中获得可解释性。然而，搜索整个符号空间以适应数据集通常被认为是一个 NP-hard 问题 [124]。一些

作品 [73, 74] 将遗传编程与基于模型的批处理 RL 相结合，并提出用于强化学习的遗传编程 (GPRL) 以获得这样的策略。遗传编程方法维护种群，种群由符号表达的个体组成。进化操作包括交叉、选择、变异等。基于神经网络 (nn) 的算法已被广泛用于具有神经引导搜索的符号回归问题 [107、141、155]。将符号回归问题扩展到 RL，Landajuela 等人

[107] 提出深层象征性政策。通过使用基于递归神经网络的符号策略生成器和基于 nn 的锚点策略，他们可以通过刺激评估策略并获得没有任何基于 nn 维度的完全符号策略。

模糊控制器 [3, 52, 72] 也可以用来表示策略。这些方法的共同思想是，代理策略可以看作是具有不同权重的聚类中心上的策略之和，而权重与当前状态与聚类中心之间的距离呈负相关。即𝜋(𝑎|𝑠)是一个高斯分布N(𝑎|𝐾𝜑(𝑠),𝛴)，其中𝐾是簇中心对应的矩阵堆叠动作，𝜑(𝑠)是返回权重向量的隶属函数根据与每个聚类中心的距离，𝛴是一个状态无关的全方差矩阵。 Glanois 等人 [52] 将这种范式总结为“IF 模糊条件（状态）DO 动作”的形式。通过测量与聚类中心的距离，可以很容易地跟踪策略指导的动作，以查看来自不同聚类中心的影响。

策略梯度法用于训练这样的策略[3]。模糊粒子群 RL (FPSRL) [72] 已被用于通过在世界模型上训练参数来构建模糊 RL 策略。这两种方法都自动控制了集群的数量，并且它们的结果都表明它们获得了高性能的可解释策略。

一阶逻辑 (FOL) [13] 是一种描述世界实体及其关系的形式语言。神经逻辑 RL (NLRL) [90, 153, 154]) 通过一阶逻辑公式表示 RL 中的策略。 NLRL 基于策略梯度和可微归纳逻辑编程 Zimmer 等人 [244]。基础工作 [90] 表明，通过逻辑规则描述策略的 NLRL 更容易被人类理解因此他们分配每个逻辑规则权重（需要训练）表明采取行动的重要性，而规则本身可以解释原因用于动作选择。

更多工作 [153, 154] 扩展了基础工作，因为它们赋予权重，不是针对每个规则，而是针对规则中的原子。他们利用遗传编程强化学习（GPRL）从状态-动作交互数据的历史中学习策略公式，并在公式上添加比基于值的公式方法更多的操作[128]。因此，NLRL 可以学习到几乎最好的策略，具有更好的可解释性和泛化性。

决策树（DT）[161]，可以分为分类树和回归树，用于不同的任务，过去在经典 RL 中应用很少，因为它们不能用随机梯度下降在线更新。然而，在高铁地区，DT 衍生出了基于策略和基于价值的方法。上面提到的value-based explainable method中的线性模型U-tree就是DT的一个典型变体。从基于策略的方法来看，DT 策略可以看作是根据 DT 的不同特征执行响应动作。训练产生的这些特征可以解释为人类了解代理对整个 RL 任务的理解。

关于基于价值和基于策略的决策树RL的比较，Silva等人[185]从理论上证明了基于策略的DT方法比基于价值的DT方法更有利。

图 3b 总结了当前基于策略的 DT 方法的框架。由于使用现有的 DRL 方法我们可以获得有效的基于 DNN 的策略，因此一种可能的方法是将基于 DNN 的策略转换为具有相似性能的 DT 策略。对于 DT 策略提取，可以利用基于 DNN 的最优策略为 DT 策略提供训练数据。典型的 DT 策略转换方法是通过迭代策略提取的可验证性 (VIPER) [14]。 VIPER是一种策略抽取算法。这个想法来自于利用模型压缩（蒸馏）[79]将预训练的 DNN 策略转换为 DT 策略。 VIPER 利用无法解释的最优策略为 DT 训练生成轨迹，并利用重采样技术专注于对代理交互具有重要意义的状态。 Ross 等人 [170] 对模仿学习算法 DAGGER 进行了改进，提出了 Q-DAGGER，它使用 Q 值作为预言机。

然后应用 VIPER 来学习更小的 DT 策略。 Milani 等人 [132] 将 VIPER 扩展到 Muti-Agent RL (MARL) 并提出 MAVIPER，它通过预测其他代理的行为来生长每个代理的树。使用转换规则来实现策略提取也是可行的。

Topin 等人 [202] 定义了一种称为迭代边界 MDP (IBMDP) 的新型 MDP，它考虑了任务中的特征及其值范围。他们给出了将 IBMDP 中基于 DNN 的策略转换为基础 MDP 中的 DT 策略的值更新规则。因此，该方法可以与当前不可解释的 RL 算法相结合，以获得可解释的 DT 策略。 Topin 和 Veloso [203] 类似地提出了一个执行策略总结的接口来构建一个抽象策略图，它可以为整个策略的可解释性提取特定于状态的解释。另一种 DT 方法是直接训练 DT 策略。通过在DT的叶节点维护Q值和权值信息，并在特定阶段进行叶节点分裂，可以获得高性能的DT策略。 Custode 和 Iacca [33] 利用进化算法来进化 DT 的结构，同时在引导节点上执行 Q 学习方法。 [172]利用惰性更新思想，仅当未来折扣奖励的近似值在特定数量上变大时才扩大树的大小，这称为保守 Q-改进（CQI）。

4.1.2 解释生成。这种类型的可解释模型本身可能无法解释或具有可理解的结构。相反，他们可以利用辅助的显式解释逻辑在训练时自动生成解释。通常，显式解释逻辑是从人类如何理解特定任务或人类理解新事物的思维习惯中学到的。解释可以有多种类型。在这里，我们列出了一些经典作品来描述这些类型的可解释性，并在表 2 中显示。

为了捕捉政策的反事实解释，Olson 等人 [149] 通过生成与当前状态 𝑠 差异最小但引导代理的反事实状态 𝑠 ' 获得局部可解释性

执行不同的操作。输入当前状态 𝑠 ′ ，他们利用深度生成模型生成真实图像这样的反事实状态。 Stein [193] 利用类似的想法来生成解释，他首先计算反事实动作对的 Q 值差异，该动作对由代理选择的动作和当前状态下的人类查询动作组成。然后框架执行梯度下降以找到决策边界并将其转换为自然语言形式。他还通过解释来训练代理，因此，规划性能可用于评估生成的解释的质量。 Madumal 等人 [127] 没有使用生成方法，而是通过因果模型对任务中的反事实进行建模。该方法的基础是结构因果模型（SCM）[64]，它代表了具有大量变量的世界，分为外生（外部）和内生（内部）部分以及随机变量之间的许多潜在关系。针对 XRL 的动作影响模型 (AIM) [127] 是从 SCM 中提取的典型工作。更具体地说，AIM 是一个有向无环图，它不仅提供事实，还提供反事实。也就是说，它可以为“为什么”问题和“为什么不”问题提供解释。该模型通过反事实生成解释：解释“为什么执行X”，我们只需要模拟Y（X的反事实），并解释“为什么不执行Y”。模拟过程以结构方程为指导。由于很难发现真实环境变量的整体内部关系，因此可以利用多元回归模型来逼近 RL 智能体训练中的结构方程。然后用一个NLP模板的方法，最终得到解释。该方法在星际争霸𝐼𝐼中以不同的结构方程逼近思想进行评估。并且已经进行了一项人体研究，以确认其可解释的优点和预测的准确性。因果模型的缺点是必须预先给定，这会限制其泛化能力。

生成解释的更直接的想法是从人类解释中学习隐含的解释逻辑。 Ehsan 等人 [41] 提出了一个具体的概念：基本原理——基于人类思维方式对行为的解释。他们分两步产生基本原理。首先，收集用户对动作解释的语料库，然后用语料库训练编码器-解码器网络。给定环境状态𝑆 = 𝑥1, 𝑥2, .., 𝑥𝑛，网络能够输出单词序列（基本原理）𝑂 = 𝑜1, 𝑜2, .., 𝑜𝑚（𝑜𝑖 是单词）。组合输入图像和语料库中的自然语言解释用于训练。作者将网络中的参数分为聚焦视图配置（关注局部信息和短期因素）和完整视图配置（关注整体环境和长期因素）。经过训练，模型可以生成与人类解释具有相同语义的解释。

基于指令的行为解释 (IBE) [48, 49] 基于交互式 RL。交互式 RL 加速了人类专家向代理输入指令的训练。 Basic IBE [49] 使代理获得重用解释决策的指令的能力。它首先预测动作目标，然后利用人类指令构建从动作目标到可理解表达的映射。在状态 𝑠𝑛 开始的时间𝑡 行动目标定义为 Δ𝑠 = 𝑠𝑛+𝑡 − 𝑠𝑛。通过在𝑡次迭代中用策略𝜋（𝑠，𝑎）进行模拟，我们可以估计状态𝑠𝑛+𝑡并得到Δ𝑠的预测。为了获得映射函数，他们选择最高 𝑥 总奖励历史并对 Δ𝑠𝑡 进行聚类以获得分类器。然后对于每个聚类，计算指令的归一化期望值作为解释。在保持性能的同时确认可解释性。聚类方法只能应用于简单的环境。在处理更具挑战性且没有验证方法的环境时，代理不可能动态更新策略。因此，他们立即推进 IBE [48]，他们通过神经网络模型构建映射，并使其适用于改变政策。

在现实生活中，我们有时会通过提问和在脑海中建立模型来感知环境，这意味着回答问题的解释是另一种可能的方式。

Hayes 和 Shah [69]介绍了这种方法。要获得特定查询的解释，

作者首先将查询映射到从预定义模板中提取的决策查询语句，然后使用图形搜索算法查找与问题相关的状态。

最后，该框架计算建立状态之间的属性，以自然语言形式构建摘要。这种基于查询的解释与另一个称为代码注释的想法相结合，代码注释标记了状态空间中的变量和动作。生成的策略解释符合专家的预期，但不幸的是，它并没有证明解释在更复杂的任务中的可靠性。 Boggess 等人 [22] 将这项工作扩展到多代理 RL (MARL)。对于 MARL 中随着代理和状态变量的数量呈指数增长的策略，他们首先将学习到的策略转换为基于一组指定特征谓词的多代理 MDP (MMDP)。他们提出了在 MARL 中回答“When, Why not, What”问题的方法，使用更受限制的相关性过滤器选择相关特征和查询动作的动作集。此外，通过将 MMDP 转换为边权重与 MMDP 中的转移概率相关的有向加权图，Dijkstra 算法 [37] 可以找到最短和最具代表性的路径，可用于生成基于特征谓词集。

形式验证技术可以增强 RL 范例的安全性和可信度。

Verily[96]就是一个典型。 Verily 考虑了环境中所有可能状态的空间，同时利用形式验证来区分状态空间中的非预期状态序列。

形式化验证主要关注安全性和活性属性，已定义为对逻辑操作的查询。为了实现这种验证，Verily 使用 Marabou 验证方法 [94]，该方法来自 DNN 的可满足性模理论（SMT）验证引擎。如果不是，Verily可以通过逻辑验证生成反例来解释。反例还可以指导 DNN 架构的更新。安德森等人

[5] 与 Verma 等人 [209] 共享相同的镜像下降思想，同时他们在神经符号类和受限符号策略类之间执行更新和投影步骤以允许有效验证。 Zhu 等人 [243] 提出了一个验证工具链来维护学习神经网络策略的安全性。有了这样的约束，他们还设计了一个反例引导的归纳综合框架，以找出一个更可验证且更容易逼近神经网络策略的确定性策略。同样，Jin 等人 [92] 提出了一个验证在环训练框架，用于在验证失败时训练和迭代地改进从反例中提取的抽象状态空间。

4.2 奖励解释

RL 任务的另一个重要部分是奖励函数，它是估计短期动作或长期策略的主要因素。每个 RL 算法都需要从环境中接收奖励信号并更新代理以最大化总预期奖励。同时，从环境的角度出发，好的奖励函数可以帮助人们实现精确的目标，而不好的奖励函数会根据奖励黑客行为导致许多错误的决策。

跟踪奖励函数中考虑方面的权重并找到合理的奖励函数权重可以解释 RL 代理的过程。基于这个想法，我们将当前基于奖励的 XRL 工作分为两种类型：奖励塑造和奖励分解。

表 3 列出了这些方法。

4.2.1 奖励分解。至于奖励功能的解释，奖励层面的解释主要集中在奖励本身。然而，奖励函数只是一个由许多隐含因素产生的实数值。如果我们只关注输出值，这是很棘手的。分解奖励函数，看奖励中各个方面对决策的影响

流程以及相互之间的对应关系是一个可行的想法。这里我们介绍几种奖励分解方法。

水平奖励分解[93]是为了在水平层面解释奖励。作者首先分解了 MDP 𝑅⃖ 中的奖励函数：S × A → R |C |，其中 C 是奖励组件数。目标仍然是优化总奖励：𝑅(𝑠, 𝑎) = ￷ 𝑐 ∈C 𝑅𝑐 (𝑠, 𝑎)。此外，Q 值也被分解：𝑄 𝜋 (𝑠, 𝑎) = ￷ 𝑐 ∈C 𝑄 𝜋 𝑐 (𝑠, 𝑎)。他们给出了基于神经网络训练这种分解的Q值的方法。为了解释分解，他们专注于比较成对的动作。一个简单的方法是直接比较𝑄⃖(𝑠, 𝑎1)和𝑄⃖(𝑠, 𝑎2)。如果有一些分量𝑐𝑖使得𝑄𝑐𝑖 (𝑠, 𝑎1) > 𝑄𝑐𝑖 (𝑠, 𝑎2) 并选择动作𝑎1，则这些分量优于𝑎2。这种方式被描述为 Δ(𝑠, 𝑎1, 𝑎2) = 𝑄⃖(𝑠, 𝑎1) − 𝑄⃖(𝑠, 𝑎2) 形式的奖励差异解释 (RDX)。 RDX 只告诉专家哪些成分可能优于其他因素，而没有指出哪个成分是最重要的。如果因子数足够大，RDX 可以提供一点解释。所以他们提供了另一种解释：最小充分解释（minimal sufficient explanation，MSX）。 MSX 是一个二元组 (MSX+ , MSX− ) 对应正负因子。 MSX+ 选择总 Δ(𝑠, 𝑎1, 𝑎2) 大于动态阈值的最小分量集，而 MSX− 检查 −Δ(𝑠, 𝑎1, 𝑎2) 与另一个阈值的总和。该方法仅在具有易于枚举的有限小动作空间的环境中进行测试。

对于多智能体任务，最流行的方法是集中训练和分散执行 (CTDE)，它让智能体在局部视图下进行训练，而中央评论家估计联合价值函数。 CTDE 的主要挑战是如何分配每个代理信用，目前的方法可以根据中央批评家和本地代理的训练过程分为显式和隐式方法。与将结构视为一个整体的隐式方法不同，显式方法分别训练中央评论家和本地代理人。因此，分配的学分对人类来说是可以解释的。对于如何获得每个本地代理的信用，Shapley 值 [171] 可以是一个有效的工具。 Shapley值是一个特征（或多智能体强化学习，实体为单智能体）在不同情况下的影响力平均值。为了计算它，我们可以衡量是否考虑目标特征或代理的输出变化。主要挑战之一是计算成本随着代理数量呈指数增长，这意味着我们不知道如何在复杂环境中对其进行近似。从计算Shapley的思路出发

值，称为反事实多智能体（COMA）策略梯度[45]的基本方法利用反事实优势函数进行局部智能体训练，但是，这种方法忽略了局部智能体之间的相关性和相互作用，导致在更复杂的任务上失败.

Wang et al [214] 将 Shapley 值与 Q 值相结合，在多智能体任务中进行更高层次的奖励分解，以指导策略梯度过程。有了这种 Q 值，他们运行 DDPG [113] 来合理规划全局奖励：个体代理的贡献越大，它获得的奖励就越多。与传统的共享奖励方法（由于将奖励分配给贡献值较低的代理人而效率低下）相比，它为每个代理人分配信用，这可以解释在训练期间如何分配全局奖励以及每个代理人贡献多少。这种基于网络的方法的缺点是它过度依赖于本地代理按顺序采取行动的假设。 Li等人[111]改为使用基于反事实的方法来量化每个代理的贡献，这样更加稳定和有效。

4.2.2 奖励塑造。尝试获得可解释的奖励函数也是一种可实现的方法。有一些工作[91, 126, 134, 199, 224, 225]跳过寻找解释奖励函数的方法的过程，直接寻求可理解的奖励函数。

基于代理人和人类之间的交互，Mirchandani 等人 [134] 提出了一种奖励塑造方法，通过终止和相关分类器将稀疏奖励塑造为与人类指令目标和当前状态相关联。 Tabrez 和 Hayes [199] 还提出了一个框架，称为奖励增强和解释修复（RARE）。它利用部分可观察的 MDP (POMDP) 来近似协作者对联合任务的理解。作者通过不断修改和修正奖励函数来实现这一目标。如果建立了更合理的奖励函数，将对其进行评估，看是否采用它比放弃它的优势更大。如果是这样，将生成修复表示。

对于更复杂的任务，定义多级奖励是一种合理的可解释性方式。它不同于任务分解，因为分解后的奖励是从环境中获得的真实奖励。而用多层次定义奖励意味着我们考虑的奖励不仅集中在从环境中获得的外在奖励，而且还包括内在奖励，以便更好地理解和解释。 Lyu 等人 [126] 将奖励定义为内在奖励和外在奖励两个级别。外在奖励是针对正式的子任务奖励，来自基本的 RL 环境，而内在奖励是在构建计划（一系列学习的子任务）时获得的。内在奖励是根据生成的计划进行评估的。 DRL 方法应用于子任务级别，试图优化外部总奖励并为低级代理获得最佳策略。并且作者使用符号规划（SP）方法在更高层次上调度子任务并获得最优计划。虽然 Lyu 等人 [126] 预先定义了动作模型，但 Jin 等人 [91] 扩展了他们的工作以自动学习动作模型，并让一个选项模型对应于多个动作模型，而不是 Lyu 等人 [126] 中的一个。 .因此，它会比基础工作收敛得更快。对于未修剪视频任务中的时间语言边界，Wu 等人 [225] 提出了树结构的基于策略的渐进强化学习。叶子策略从外部环境接收外在奖励，而根策略不直接与外部环境交互，从本质上衡量高级语义分支的选择以及所选语义分支动作如何影响外部环境的奖励外在的。因此，此过程在树结构策略中提供了可解释的信用。针对定义内在奖励无法获得与定义外在奖励一样好的表现的问题，Wu 等人 [224] 提出 intrinsic mega-reward 来鼓励

代理获得更多的个体控制能力，可分为直接控制和潜在控制。

关系转换模型被设计来获得这种控制能力。与大多数现有的内在奖励方法相比，该框架取得了优异的成绩。

4.3 状态解释

状态解释是一种局部可解释性。由于对当前环境的观察是在每个时间步开始时指导决策的直接信息，状态解释方法用内省部分更新了经典的 RL 算法，以在执行决策过程的同时分析输入观察。大多数现有框架提出的分析过程都是基于注意力的方法。基于注意力的方法通过定义重要因素的定量评估方法并尝试将其可视化来回答有关哪些状态或状态的组成部分对训练结果有很大影响的问题。

我们提出了一个分类，按目标可解释状态的时间排列这些框架，并在表 4 中列出。我们简要回顾了本节中提供状态级可解释性的相关工作。

4.3.1 历史轨迹。不同时间的目标可解释状态空间是状态解释方法的主要划分。从历史决策的痕迹出发，我们想知道每一次历史观察对智能体决策过程的影响。一些著作给出了估计历史观察影响的方法

这些方法的主要因素是如何量化历史相互作用的影响。提取对以后的决策影响最大的交互是很直观的。稀疏贝叶斯强化学习（SBRL）[241] 在训练代理时记录过去的经验，用于知识转移和连续动作搜索。它提供了一种易于理解的方式来解释历史数据样本如何影响学习过程。视觉 SBRL (V-SBRL) [135] 将重要的过去经验存储为图像，图像可以告诉人类如何根据先前记忆的经验做出决定。 V-SBRL 使用稀疏滤波器来维护最重要的图像并丢弃不重要的图像以保持图像集稀疏。 V-SBRL包含三个部分：图像编码器，对高维图像数据进行编码； SBRL 模型计算 Q 值，相关向量机捕获相关样本作为目标图像集的候选；快照存储从候选者中选择最重要的状态-动作对。

Sequeira 和 Gervasio [181] 试图从历史观察中提取有趣的元素。

兴趣元素代表对决策有很大贡献的历史互动。它们通过内省分析使 RL 智能体更易于解释。从历史数据中获取的趣味元素，通过三层次的反省分析找到。首先，environment-analysis对转换函数做确定性分析，找出历史交互中的reward outliers。第二个交互分析进行频率分析等，以帮助表征环境动力学。最后，Meta 分析将历史交互数据和不同级别的分析结果相结合，以识别交互的更复杂方面。

趣味元素以视频的形式输出。

虽然 SBRL 和兴趣元素方法衡量交互的重要性，但 Shapley 值可以成为计算和可视化每个特征在先前轨迹中的贡献的有效方法。一个主要问题是朴素的计算 Shapley 值方法具有不容忍的 𝑂(2 𝑛 ) 复杂性。为了逼近 Shapley 值，Heuillet 等人 [78] 使用蒙特卡洛采样，而 Zhang 等人 [237] 使用深度模型来计算特征的梯度并将它们组合为 Shapley 值。通过将时间和空间分开的模块，他们能够构建 3D 特征-时间-SHAP 值图来可视化每个时间步长的重要性。

为了结合时间步长在垂直方向和情节关系在水平方向的重要性，Guo 等人 [62] 通过深度高斯过程 (GP) 捕获这种顺序依赖性，该过程从 RNN 和情节嵌入中接收包含状态-动作对的时间步长嵌入输入来自 MLP。具有深度循环内核的 GP 输出时间步长之间的相关性和跨情节的联合效应。此外，这种输出可用于通过线性回归预测情节的总奖励，其回归系数可以识别重要的时间步长，这也增强了可解释性。

4.3.2 当前观察。许多论文都试图找到当前状态下决策的显着特征，尤其是在视频和图像环境中。这种方法基于分析输入状态如何影响输出策略提供事后解释。这种类型的一些方法如图 4 所示。

上面提到的线性模型 U 树 (LMUT) 方法 [120] 也提出了对特征的评估。一个LMUT节点的相应影响是通过分别对应于特征的Q值和平方权重的确定性的两个函数的乘积来评估的。论文将其应用到一些视频游戏中，得到了一些影响力比较大的像素点。他们将此类像素称为对当前决策有很大影响的超像素。

有很多基于self-attention的作品[6, 57, 86, 110, 200, 201, 227, 231]。 Self-attention 提出了一种计算注意力得分矩阵的方法𝑋 代表输入中基于 Key、Query 和 Value 矩阵的每两个特征之间的关系。对于代理需要与其他实体交互的某些环境，例如自动驾驶 [109]、自注意力 DNN [110]

图 4. 获得当前观察（状态）重要性的一些典型方法。 (a) 说明了方法 [6, 110, 200, 201]，通过添加特定的网络结构，如卷积神经网络和注意力网络，可以捕获区域和特征重要性的信息。这种重要性既可以提供给 DRL 输入以获得更好的性能，也可以作为对人类用户的解释。 (b) 描述了如何通过扰动获得重要性 [57、86、156、231]。首先，生成不同的扰动𝑚𝑖并将它们分别施加到状态输入上，然后将它们馈送到 DRL 策略以获得策略𝜋𝑚𝑖，接下来将根据差异函数𝐷（𝜋𝑠，·）将其与完整的状态策略𝜋𝑠进行比较。因此，将获得每个特征或区域的重要性并将其传递给人类用户。

考虑到每个实体都将比普通 DNN 表现更好，因为网络结构更适合任务。更重要的是，注意力矩阵可以被认为是对当前观察和决策的一种解释。许多其他作品利用基于注意力的 DNN 的相同想法来生成解释：Tang 和 Ha [200] 提出注意力神经元成功地关注无序观察的子部分，Annasamy 和 Sycara [6] 利用注意力嵌入的 DNN 构建自动 -编码器重建输入状态。基于自我注意的神经进化 [201] 从视觉输入中选择像素的空间块而不是单个像素。

神经进化框架旨在仅关注相关区域，而忽略输入图像中的不相关区域。这些空间补丁将被发送到自注意力框架以获得重要性。通过神经进化，代理可以专注于对任务重要的区域，并相对给出不相关的区域，从而提高了有效性和可解释性。区域敏感彩虹（RS-Rainbow）[231]被提出来寻找输入图像中的重要区域。 RS-rainbow 声称输入图像中的重要区域都是动态的。所以在RS-rainbow框架中，DNN后面跟着一个region-sensitive模块来检测动态的重要区域。作者提出了三种可视化区域的方法：权重叠加、软显着性掩码和二元显着性掩码。

RS-rainbow 框架训练嵌入经典 RL 模型（如 A3C [136] 和 PPO [180] 框架）的可解释代理。基于文本的游戏对于 RL 获得推理能力更具挑战性。 Xu 等人 [227] 提出了一种分层注意模型，用于在基于文本的游戏任务中实现可解释性。由于基于文本的游戏是 POMDP 模型，他们将知识图谱 (KG) 添加到观察中以表示游戏历史。分层注意力是一个两级框架：在高级注意力中，查询向量由分数和 KG 组成，用于计算文本观察的注意力值组。在低级注意力中，高级输出被视为计算 KG 子图注意力的查询。因此，多模态输入可以转化为可解释的形式。

另一种传统模型是显着图。显着性和注意力之间存在细微差别。注意力是一个笼统的概念，涵盖了影响选择机制的所有方面，而显着性直观地描述了场景的某些部分，可能是一个对象或一个区域。显着图告诉我们像素对图像分类结果的影响。可以通过计算对应的正确分类中归一化分数的梯度来构建

图像像素。许多作品 [57、61、86、150、156、212、215] 将这个想法扩展到 RL 代理以增强可解释性。 Petsiuk 等人 [156] 通过在 [0, 1] 之间乘以随机值掩码来测量像素重要性，然后观察它如何影响决策，Pan 等人扩展了这项工作

[150] 适用于地理区域。同时，Greydanus 等人 [57] 提出了一个具有相同思想的框架，称为基于扰动的显着性，该框架直接对特定特征的确定性施加小扰动，以观察变化作为策略的影响。 Guo 等人 [61] 使用该框架来比较人类和 RL 代理的注意力，同时他们的工作展示了 RL 如何在训练中变得更像人类。由于像素显着图不方便用户理解，Wäldchen等[212]用卷积神经网络将其扩展到部分特征。对象显着图 [86] 还通过附加的模板匹配步骤将像素显着图改进为对象显着图。模板匹配用于为每个检测到的对象分配一个通道作为神经网络的输入。

对象显着图可以通过像素显着图加上对象检测来构建。这对人类来说是可以理解的。

Goel 等人 [53] 首先学习通过流信息捕获和分割视频序列中的运动对象，而不是局部空间信息。通过学习对象的表示，策略可以以更易于解释的方式关注移动对象。 Wang 等人 [213] 为 RL 提出了一个特殊的输入可视化框架。他们使用可视化工具直接可视化 DQN [137] 的过程。整个DQN过程的可视化包含了每个阶段在做什么以及卷积神经网络中每一层的激活水平。

4.3.3 未来预测。我们上面介绍的两个子类型是对已经存在的状态进行解释，但是这种未来预测类型是根据训练好的模型对未来进行预测作为解释。

获得未来预测的一种简单方法是从当前状态重复前向模拟 [206]。然而，正向模拟结果可能与随机环境的经典 Q 值不匹配，训练中的系统偏差 [67] 等。因此，Yau 等人

[232] 根据代理在执行 Q 学习时赋予的重要性对事件进行加权。他们另外定义参数化 𝐻(𝑠, 𝑎) 作为以状态-动作对 (𝑠, 𝑎) 开始的未来状态访问的折扣预期，并给出具有 DQN 风格的损失函数来近似这样的映射函数（𝐻 的迭代是与 Q-learning 更新一致）。训练出这样的框架后，可以通过𝐻得到“信念”图并可视化，这与Qfunction是一致的。该框架与当前基于价值的无法解释的 RL 框架一致。 Lee 等人 [108] 直接将未来预测与多目标 RL 相结合。为了便于解释，他们通过使用弱监督自动分离任务空间并忽略不相关的特征，将目标空间限制在语义上有意义且可解释的空间。训练后，可解释潜在空间上的目标将具有更具代表性的语义，可以为当前代理生成可信赖的预测。语义预测控制（SPC）[151] 是一个基于语义的框架。 SPC 动态学习环境并聚合多尺度特征图以预测未来的语义分割。通过采用深层聚合提取多尺度特征表示，经过多尺度预测模块处理后，将预测的特征图聚合起来，不仅可以估计未来事件，还可以估计未来的语义分割。 Lütjens 等人 [125] 使用 Monte Carlo Dropout 和 bootstrapping 训练一组 LSTM 网络。它可以获得一个可以衡量观察的新颖性（不确定性）的策略。从不确定性测量得出，该框架可以解释模型知道什么和不知道什么。 LSTM [81] 可以估计未来事件的概率并预测新观测的不确定性。

4.4 任务解释

分层强化学习 (HRL) [12] 可以处理 RL 任务中决策变得更加复杂的情况。通常，HRL 的主要思想是构造一个高层控制器选择选项（宏动作）和一些低级控制器选择原始动作，高层控制器输出的选项可以看作是一个子目标，低级控制器需要实现。 HRL 对 RL 任务的划分工作和高级控制器所做的选项提供了比上述 XRL 更高的架构可解释性，用于查看高级代理如何调度低级任务。在这里，我们深入研究 HRL，并将 HRL 工作分为两部分：整个自上而下的结构和简单的任务分解。表 5 列出了我们讨论的方法。

4.4.1 整个自上而下的结构。对于具有这种结构的分层任务，真实的任务集被划分为多级。低级任务集是高级任务集的子集，而高级任务集有自己的任务元素，而低级任务集没有。这种严谨清晰的结构产生了可解释性，因为它符合人类的生活经验，并且可以看到高级代理如何调度低级任务。

一项典型的工作 [183] 给出了一种在多任务环境中进行训练以获得分层策略的方法。对于任务划分集：𝐺1,𝐺2, ...,𝐺𝑘，我们有 𝐺1 ⊂ 𝐺2 ⊂ ... ⊂ 𝐺𝑘。每个级别的任务都有一个策略𝜋𝑘，它由四部分组成：基础任务设置策略𝜋𝑘−1，指令策略𝜋𝑖𝑛𝑠𝑡𝑘给出指令𝑔告诉𝜋𝑘−1执行哪个基础任务，增强平面策略𝜋𝐴𝑢𝑔 𝑘 对于 𝜋𝑘 直接选择自己的动作而不是从基础任务中选择，切换策略 𝜋 𝑠𝑤 𝑘 给出一个信号𝑒 来决定从基础任务还是扩充任务中选择一个动作。通过对(𝑒𝑡,𝑔𝑡)表示状态，基于时间序列的状态可以看作是一个有限状态马尔可夫链范式，也可以给出各个状态之间的关系。为了训练这种分层策略，他们给出了两个步骤的方法。首先，从 𝐺𝑘−1 学习基本技能，以确保可以通过向基本策略发出指令来利用先前学习的策略。也就是说，这个阶段正在建立指令策略和基础策略之间的联系。然后从𝐺𝑘中采样学习新技能和切换策略。这两个步骤都基于经典的 actor-critic RL 算法。在学习新技能的同时重用以前的技能的能力以及可解释性在我的世界游戏中得到了验证。

另一个想法是关于 bool 代数形式的基本任务的逻辑组合 [142]。对于任务表达式，可以使用布尔运算，如析取、合取和取反。可以将基本任务与 bool 操作结合起来。他们提出的框架是终身学习，需要利用以前学到的技能来解决新任务。所以任务

𝐺𝑖 也有顺序关系𝐺1 ⊂ 𝐺2... ⊂ 𝐺𝑡−1 ⊂ 𝐺𝑡 。在论文中，框架首先为每个基础任务学习价值函数的目标导向逼近，然后以特定方式组合这些逼近。该框架不仅可以在不进一步学习的情况下学习新任务的技能，而且可以成功地表示当前由 bool 代数表示的 RL 任务的最优策略。

4.4.2 简单任务划分。与严格的整体自顶向下结构不同，简单划分的子任务具有相同的地位，彼此之间没有优先级。从多任务 RL 的角度来看，我们需要找到一种有效的任务间知识转移方法。因此，可以将告知多个任务之间关系的元数据用作捕获任务结构的有效工具。 Sodhani 等人 [191] 利用元数据来学习跨一系列任务的可解释上下文表示。然而，这些子任务对应于将问题限制到更高级别的最终目标。因此，我们可以将任务分为 2 个级别。通常，低级任务是从真实任务中分解出来的具有相同状态的子任务，而高级任务是对子任务进行调度。

许多方法明确划分任务并将高级代理构造为低级代理的调度程序。 Jiang 等人 [89] 训练高级代理为低级代理生成语言指令。低级代理执行条件强化学习算法，同时使用基于语言模型的强化学习算法训练高级代理。高级代理产生的语言指令都是人类可以解释的。我们在 4.2 节中讨论的符号规划+RL 方法 [126] 应用了简单任务划分的思想。它使用规划器-控制器-元控制器框架来解决分层任务。规划器在高层工作，使用符号知识来获得子任务的长期调度并获得内在奖励。在低层工作的控制器使用传统的 DRL 方法来解决外部奖励的子任务。元控制器通过规划器和控制器的输入学习外在奖励，同时为规划器提供新的内在奖励目标。在点到点（D2D）[19] 框架中，高层代理构建环境和状态的动态变化，并为低层代理提供方向。低级代理接受高级代理的指导，解决分解后的更简单的子任务。在此过程之后，高级代理可以学习决策过程的可解释表示，而低级代理可以有效地学习更大的状态和动作空间。

Wu 等人 [223] 并没有像我们上面提到的两种方法那样直接划分任务。他们使用原始模型，这对于学习分解混合任务可能不是那么有效。首先，原始模型用于近似分段函数分解，而这些原始模型专用于它们自己的区域，这意味着子策略也专用于这些区域。然后转移子策略来组成我们真正想要解决的任务。通过这些子策略的组合，该框架可以保持架构的可解释性。可解释性在终身学习和单任务学习的高维连续任务上得到验证。

5 RL 范式的人类知识

我们在上面分类和讨论的主流 XRL 框架在寻求可解释性时很少关注人类的影响。然而，这种类型的几项工作的结果显示了人类参与 XRL 的好处 [29、56、60、99、112、238]。为了强调这种基于人类知识的方法并鼓励未来对其进行研究，我们将其放在单独的部分进行讨论。人类关于任务的先验知识可以作为评估和指导代理的标准，而这种监督也可以对特定输入产生事后解释。此外，与经典 RL 和

与不需要人类参与的普通 XRL 训练相比，人类知识嵌入的 RL 框架 [130、163、164] 确实显示出性能、可解释性和安全性方面的改进。

至于人类知识的内容，虽然它可能与任务不完全兼容，但代理会在训练过程中尝试将其正确地实现在任务上。这种优化过程符合人类自然的学习过程，大多数时候来自专家的指导和知识是模糊的而不是那么具体，但我们仍然可以利用它来更有效地学习和更准确地理解。考虑到基于人类知识的 RL 的效率和当前 XRL 社区中缺乏它，我们试图通过在本节中介绍现有的少量工作来强调基于人类知识的 RL 的重要性。在这里，我们根据我们在 XRL 上的分类工作来讨论它们。

5.1 代表人类知识的模糊控制器

我们在 4.1.1 节中讨论了使用模糊控制器来表示策略的方法。

同时，模糊逻辑也可以用来表示人类知识。 XRL 中的模型解释方法使用可自我解释的模型来近似 RL 框架中的 Q 值或策略。

至于利用人类知识，主要的挑战是决定如何以代理人可以轻松理解的可解释方式来表示人类知识，因为人类知识在大多数新任务中既不精确又模糊，有时只涵盖一小部分状态空间的一部分。为了表示这样一个近似而不是准确的模型，像二价逻辑规则这样的经典方法是不适合的，因为它们是确定性的。模糊逻辑可以为我们提供一种有效的范式，以与环境相同的不确定和不精确的形式来表示人类知识。模糊逻辑的典型工作是由 Zhang 等人完成的 [238]。他们提出了一个名为 KoGuN 的策略网络，它由两个主要部分组成：知识控制器和改进模块。知识控制器被赋予一组由人类制定的模糊规则。每条规则对应一个动作，模糊规则所代表的所有人类知识都适用于该任务。为了缓解这种知识不匹配问题，他们为每个规则 𝑙𝑖 添加了可训练的权重 𝛽𝑖 以学习适应当前的新任务并像神经网络一样优化知识控制器。控制器输出一个动作偏好向量 p = [𝑝1, 𝑝2, ..., 𝑝𝑛] 其中 𝑝𝑖 是规则 𝑙𝑖 的结果。精化模块将 p 作为输入并输出精化后的 p*，这可以看作是对基于粗略策略的修正。 p 和 p* 的动态加权和作为最终结果：𝑤1p +𝑤2p* 其中 𝑤1 +𝑤2 = 1. 模糊控制器提供的 p 在训练开始时占据较大的位置和精炼模型结果 p* 的比例在训练过程中逐渐增加，而p的比例相应减少

5.2 对人类语言的密集奖励

稀疏奖励被大多数 RL 任务广泛设置，因为它简单易定义：只需要在代理实现子目标或最终目标时给予奖励，否则奖励为零。很容易看出，使用稀疏奖励进行学习是缓慢且具有挑战性的，因此我们尝试定义一个密集的奖励函数，在完成动作的同时给出奖励信号。密集奖励函数必须设置得足够精细，以评估代理的每个动作并保持最优策略不变。已经进行了许多工作 [10、24、66、122、143] 以提供额外的合理密集奖励函数。 Goyal 等人 [56] 提出的一项创造性工作基于人类的自然语言注释给出了密集的奖励。他们首先将 MDP(+L) 定义为 MDP 的变体。 MDP(+L) 由 〈S, A, 𝑃, 𝑅,𝛾,𝑙〉 定义，其中𝑙 是描述代理行为的语言命令，其他与 MDP 中的组件相同。 MDP中的初始𝑅表示为𝑅𝑒𝑥𝑡，而语言𝑙确定的密集奖励表示为𝑅𝑙𝑎𝑛。作者添加了一个 LanguagE-Action 奖励网络 (LEARN) 来估计代理是否遵循从人类注释者那里获得的语言命令𝑙。这个框架提取了过去动作序列 (𝑎1, 𝑎2, ..., 𝑎𝑡−1) 并将其转换为动作频率向量 a。然后 LEARN 以 a 和自然语言命令𝑙 作为输入，输出动作频率向量是否与自然语言命令相关的概率分布。分布在两个类别上：相关和不相关，而这两个类别的概率表示为𝑝𝑅 (a) 和𝑝𝑈 (a)。该分布可以衡量 a 和 𝑙 之间的相关性，这可以进一步用于构建内在语言奖励 𝑅𝑙𝑎𝑛。可以根据新的奖励函数𝑅𝑒𝑥𝑡 + 𝑅𝑙𝑎𝑛生成目标最优策略，这也是基于奖励整形定理[143]的原始奖励函数𝑅𝑒𝑥𝑡的最优策略。

5.3 Gaze Position-based attention

我们已经在 4.3 节中讨论了使用基于注意力的思想来学习图像或视频输入向量中的重要特征的代理。对于模仿学习框架，它有相应的模仿方式来获得注意力。 Zhang 等人 [240] 将这些方法总结为从人类那里学习注意力，而人类训练员将注意力图提供给学习代理。人的参与可以通过表情和注视位置隐含地表现出他们的注意力。如果模型可以在演示的同时捕获这种注意力信息，则可以将此类信息用作评估反馈的额外来源。这里我们介绍一些基于注视位置的工作[60,99,112]。 Guan 等人 [60] 增加了扰动无关区域的人类注意力数据。 Kim 等人 [99] 利用视觉注意力模型来训练从图像到车辆控制信号的映射，它还可以为代理的动作生成文本解释。文本解释训练数据由人类提供，同时注意力对齐用于建立控制器和解释之间的联系（每周和强烈）。 Li 等人 [112] 将注视视为概率变量，可以利用嵌入在 DNN 中的随机单元进行预测。基于这个想法，他们通过选择重要特征和估计人类注视监控信号的不确定性来实现注视框架。

5.4 自动任务分解

对于奖励稀疏的复杂任务或多任务问题，很难直接训练出高效的智能体。因此提出了分层强化学习（HRL）范式来处理它。 HRL在分解复杂任务的基础上，重用和共享大量低级策略，而高层策略进行调度工作。为了加速任务分解过程，Chen 等人 [29] 利用人工指导和演示来训练高级语言生成器，并使用生成器来指导低级策略。模仿学习用于训练由多层 LSTM 网络组成的生成器。生成器将编码状态（包含环境和目标等显式信息）作为输入并输出自然语言指令。之后，低级策略从输入指令的最后隐藏状态和编码状态的串联中获得输入。通过全连接层，网络可以获得动作。这种自然语言指令利用框架不仅能成功分解复杂任务，而且对新任务具有很高的泛化能力。

6 XRL的挑战和未来方向

目前，XRL的研究还处于早期阶段，因此我们在架构和评价指标等方面还存有疑虑。基于 XRL 的评论论文和材料，我们在这里提出了 XRL 研究的一些有前途的未来方向

6.1 XRL 中的基于解释的学习和人类知识

该解释不仅可以帮助人们理解 RL，还可以为 RL 优化提供支持。

Dietterich 和 Flann [36] 给出了基于解释的强化学习 (EBRL) 的框架是一个基于案例的解释过程。他们将解释视为处理类似情况的监督，并成功提高了 RL 的速度和可扩展性。一些 XRL 作品将可解释的状态表示 [110] 和内在奖励 [199] 提供给 RL 模型以获得更好的性能。 Human knowledge-based RL 将人类知识作为原始解释或资源来生成解释，也可以提高模型的可解释性和效率，正如我们在第 5 节中强调的那样。然而，很少有研究人员明确提到 XRL 领域中基于人类知识的范式。 Zhang 等人 [240] 总结了将人类知识与 RL 相结合的框架。他们说明人类知识可以有多种形式，例如人类注视注意力 [99、112] 或来自人类训练者的内在奖励 [219]。他们在 XRL 中有相似的想法，例如我们的分类法中基于注意力的状态解释和基于奖励塑造的奖励解释 XRL 方法，它们为人类用户和下一次训练生成合适的解释。未来的 XRL 研究可以考虑利用基于人类知识的范式来构建新的 EBRL 模型，以获得高面向用户的可解释性和性能。

6.2 评价方法

虽然我们在第 3 节中谈到了目前 XRL 的评估方法，但仍然没有一种评估方法可以被 DRL 社区的大多数专家所接受。一个原因是 XRL 方法高度局限于特定的任务，这些任务可能彼此相差甚远，而且解释的形式可能过于多样化，无法总结出一种通用的测量方法。更重要的是，在许多论文中，可解释性更多地被视为人类的主观感知，这些论文只是声称他们的方法是可解释的，没有数学公式或严格的推导支持他们的表达。一旦确定了 XRL 的通用评估方法，我们就可以比较不同的 XRL 方法并确定哪一种是最先进的。

Shen 等人 [182] 提出了一个用于自动驾驶的软件平台，用于比较同一驾驶场景中的不同 XRL 智能体，并评估 XRL 智能体的解释精度。但是对于XRL测量，在实际场景中应用它的评估方法中，不仅要考虑XRL的性能和解释的精度，还要考虑法律和伦理方面的问题。

6.3 Multi-part explainability

我们上面提到的这些 XRL 方法以及我们的分类工作都是基于使 RL 框架只有一部分可解释的，这可以看作是部分可解释的方法并提高部分可解释性。一个本质问题是，除了目标可解释部分之外的其他部分对专家来说仍然是不透明的。一些复杂的任务，比如自动驾驶，出于安全的考虑，对可解释性有很高的要求。因此，只有一个可解释的部分是不够的，而且仍然没有说服力。为了解决这个问题，MDP 过程的多部分可解释性可以成为 RL 代理的可能解决方案。一种直接的方法是利用所有部分解释方法构建一个综合方法。例如，Huber 等人 [84] 结合了策略摘要的全局解释和显着图中的局部解释，分别对应于模型解释和状态解释。然而，不同的部分解释方法可能具有截然不同的结构，并且仅限于少数特定环境，这使得组合工作具有挑战性。我们猜测的一种可能方法是在更高层次上对这些方法进行抽象，然后将它们组合起来。

6.4 可解释性和性能的平衡

获得更易于解释的模型或算法会对代理的性能产生副作用。

一个原因是更可解释的模型需要相应更多的计算资源来产生足够好的解释。此外，训练和调试 RL 和 XRL 模型总是很棘手。 Glanois 等人 [52] 认为我们需要在可解释性和可解释性之间做出权衡

获得更易于解释的模型或算法会对代理的性能产生副作用。

7 CONCLUSION

由于实用、安全和可信赖的问题，可解释性在 RL 社区中引起了越来越多的关注。它赋予 RL 智能体表现出有根据的行为并进一步说服人类参与者的能力。在这项全面的调查中，我们引入了统一的概念定义和分类法来总结和关联各种最新的高级 XRL 方法。调查首先对XRL的可解释性定义和评估指标进行了深入介绍。然后我们进一步将相关的 XRL 方法分为四个分支：(a) 直接将内在模型构建为可解释框的模型解释方法。 (b) 奖励解释方法，将奖励功能规范化，使其易于理解。(c) 提供基于注意力的观察解释的状态解释方法。 (d) 分解任务以获得多阶段可解释性的任务解释方法。此外，值得注意的是，一些 XRL 方法反过来利用人类知识来促进学习代理的优化过程。我们还讨论并将这些作品组织到我们的分类结构中，而其他 XRL 调查很少关注它。我们希望这项调查可以帮助新手和研究人员了解和利用不断发展的 XRL 领域中的现有方法，并突出未来研究的机遇和挑战。