推荐！《人与AI协作中的可解释人工智能》320页论文-CSDN博客

我们已经注意到人工智能（AI）代理（agent）对我们生活方式的影响和冲击。要想让这些人工智能代理为我们提供有效和负责任的支持，我们就需要了解它们是如何做出决定的，以及这些决定会产生什么后果。可解释人工智能（XAI）研究领域旨在开发能够解释自身功能的人工智能代理，以提供这种理解。在本论文中，我们定义、开发并评估了一套人工智能代理可以提供的核心解释，以支持它们与人类的合作。

在第一部分中，我们研究了解释的效果，这些解释传达了为什么要做出一个决定而不是另一个决定，即对比解释类。我们对该类解释的两种形式进行了评估（第 2 章），分别提供了基于规则或基于示例的内容。基于规则的形式最能提高人类的理解能力。这两种解释都会让参与者觉得他们理解了人工智能代理，尽管这与他们的实际理解并不相关。此外，事实证明，对于自我解释的人工智能代理，即使其建议不正确，参与者也会更愿意听从代理的建议，尤其是在以示例形式提供解释的情况下。我们为提供决策支持的人工智能代理开发了一种生成基于规则的对比性解释的方法，并证明这种方法高效、准确，而且与人工智能代理的功能无关（第3章）。根据我们的试点研究结果，我们提出并定义了第二种方法，用于人工智能代理在一段时间内规划行为，这通常用于自主系统（第4章）。这些研究结果表明，人类希望此类规划型人工智能代理能提供对比性解释，以报告该代理在执行其计划时预计会产生哪些后果。所介绍和定义的方法考虑到了这一点，允许人类对这些人工智能代理的计划提出疑问，并得到符合人类可解释术语而非数值的代理预期后果的答案（例如，代理预期向右转会掉下悬崖，而不是解释向右转会大大降低预期效用）。

在第二部分中，我们定义了两种新的解释类别：置信度解释和可操作性解释。置信度解释传达了人工智能代理的决策被证明是正确的可能性，以一种可解释的方式计算出这一可能性，并利用过去的表现实例对其进行解释（第5章）。我们提出了一种不可知的方法，利用基于案例的推理生成此类解释。评估表明，即使在模拟人工智能代理更新和概念随时间漂移的情况下，这种方法也是准确和可预测的。两项研究表明，与最先进的替代方法相比，非专业人士和领域专家都更喜欢我们的基于案例推理的置信度解释方法。可操作的解释旨在支持人类在人工智能代理做出决定时对其提出质疑并改变其决定的能力（第6章）。我们正式定义了使解释具有可操作性的六个属性，以便对有助于质疑人工智能代理决策的解释理论进行统一的比较和论证。我们进行了文献综述，为开发和测试生成可操作解释的方法提供了研究议程。

最后，在第三部分中，我们认识到解释是为人类与人工智能代理之间的合作服务的，其应用需要在这种合作的背景下进行设计。我们用解释的概念扩展了现有的合作设计方法，并提出了几种设计方案（第7章）。每种设计都在道德敏感任务中为人工智能代理提供了不同程度的自主权，并讨论了解释在此类任务中的作用。然后在医疗保健领域对其中几种设计进行了评估（第8章）。结果表明，参与者非常重视解释，但在时间紧迫的情况下也会觉得解释乏味。此外，当人工智能代理变得更加自主时，他们会觉得自己对人工智能代理的责任减轻了，这也降低了他们查看解释的积极性。这说明了设计一个可解释的人工智能代理的复杂性，它需要整合各种解释，以支持人类与人工智能的合作。

总之，上述研究结果表明，人工智能代理的解释有可能改善人类与人工智能代理之间的合作，因为解释可以带来各种有益的影响。然而，并非所有这些效果都是积极的。解释也可能带来不利于合作的负面影响，这取决于具体情况。例如，在禁止人类采取理想的批判性立场的使用案例中，解释所带来的更具说服力的建议可能是有害的，但在消除不必要的信任时，解释则是有益的。已进行的研究表明，解释会产生效果，其价值取决于使用情况。未来类似的测量解释所带来的各种效果的研究将为可解释人工智能代理的设计选择提供坚实的基础。这些设计模式描述了在特定的人类-人工智能合作中，哪些解释在什么样的用例中具有什么样的效果。除了这些见解之外，我们还说明了一种更加正规化的方法的价值，这种方法可以使解释具有可操作性，而不仅仅具有认识价值。通过不同的属性和层次，我们可以提供一个研究议程，使解释具有深远的实用价值，让人类在与人工智能代理互动或打交道时能够自主。最后，我们表明，开发独立于应用机器学习技术的解释生成方法是有效的。尤其是当解释不需要公开人工智能代理的每一个细节时，这种方法更是如此。

最后，我们对未来的 XAI 研究提出了建议。首先，我们的建议是在解释的评估以及如何生成解释的理论基础方面投入更多精力。我们需要在人工智能代理的现实应用中，基于描述解释的积极和消极影响的明确理论模型，进行更严格的评估。此外，如果能更多地关注如何生成解释的理论和数学基础，我们就可以努力开发出一些方法，使我们能够根据所解释的人工智能代理的内在复杂性，确定所生成的解释何时足够正确。通过在这两方面加大努力，我们应该能够为行业和政府提供有效、负责任地应用解释所需的知识，并制定最佳实践和法规。我们的第二个建议是，在人类与人工智能的合作中，更多地关注解释的作用和嵌入。这将为解释开辟更多的用途，而不仅仅是创造值得信赖的人工智能代理。解释的目的包括支持长期合作、帮助知识发现、在某一领域教育人类。这些建议归根结底就是要更深入地关注以人为本的研究，关注人工智能代理应该提供的解释。

图 1.3：解释包括的各个方面（类别、形式、方式和方法）以及评估这些解释的方法概览。在本论文中，我们将重点讨论虚线框部分。

我们已经开始创造人工智能（AI）代理，它们有自己独特的推理和做事方式。我们在生活中采用这些人工智能代理，因为它们可以有效地接管某些任务，并协助我们完成其他任务。它们可以自动改善我们家中的生活条件，为治疗我们的医生提供支持，批准我们的贷款申请，确定我们是否适合理想的工作，以及其他许多任务。我们已经注意到人工智能代理对我们生活方式的影响和冲击。现在，我们必须确保自己有足够的参与度，并对人工智能代理有一定程度的了解，以便将这种影响力交给人工智能代理。

随着人工智能代理变得越来越独立，我们将面临它们的行为违反我们的道德价值观和最佳意图的风险。例如，人工智能代理在荷兰儿童保育福利丑闻中扮演了重要角色，荷兰税务机关并不知道他们使用的人工智能代理错误地将人们贴上了欺诈者的标签[1]。这个例子表明，人工智能代理可能会变得有害，例如，有偏见的人工智能代理会歧视少数群体，或在新奇但危急的情况下做出奇怪的行为。我们希望控制人工智能代理，并让人类对其行为负责。实现这种控制的唯一方法就是了解它们如何、为何以及何时会有某些行为。这种理解被视为创建和使用我们可以信任、依赖和合作的人工智能代理的关键。

这种对理解的需求促使研究人员投资于构建能够自我解释的人工智能代理，这一研究领域被称为 "可解释人工智能"（XAI）。在理想情况下，如果人工智能代理的决定对我们产生了某种影响，我们希望它能像我们希望人类同伴解释他们的决定一样解释自己。无论这个决定是调整家里的恒温器、决定我们的治疗方案还是批准或拒绝新的贷款。在这些情况下，人工智能代理最好能以一种有助于我们接受、信任并与之合作的方式解释其决定。此外，人工智能代理对自身的解释可以帮助我们识别人工智能代理何时有害，如何补救这种伤害，以及如何进一步改进人工智能代理。因此，能够自我解释的人工智能代理可以带来诸多优势。

要让人工智能代理成为一个有能力解释自身的人，有两大挑战：1）确定人工智能代理应该解释什么；2）使人工智能代理能够生成这样的解释。只有前者，我们才可能知道为了什么目的应该解释什么，以及预期会产生什么效果，但如果没有人工智能代理生成这样的解释，我们就无法将其付诸实践。如果只有后者，我们可能会拥有能够生成解释的人工智能代理，但却不知道这些解释会产生什么效果，以及它们是否达到了理想的目的。要确保 "可解释的人工智能代理 "能够负责任地应用于现实世界，就必须应对这两个挑战。因此，XAI 研究人员面临的主要问题--也是本论文的主题--如下：人工智能代理应该向人类解释什么？

通过解决这个问题，本论文旨在为人工智能代理的负责任应用做出贡献，深入探讨人工智能代理应该解释什么、这些解释能达到什么效果，以及它们如何生成这样的解释。有了这些见解，我们就能设计和开发具有与预期现实应用相匹配的目的的可解释人工智能代理。

1.1 对可解释的人工智能的需求

XAI 要么是一个新领域，要么是一个老领域的复兴，这取决于你问的是谁。从历史上看，解释与人工智能的结合并不新鲜。几十年前，当人工智能研究集中在现在有时被称为 "老式人工智能"（GOFAI）的领域时，解释被用来将专家系统中的知识传达给与之合作的人类[2, 3, 4]。这些解释具有教育作用，只有少数例外旨在解释专家系统如何推理。这种做法的主要原因是，专家系统以我们已经熟悉的方式推理所激发的人类知识，这意味着不需要解释来说明这种推理[5]。相比之下，当前的人工智能代理与前几代人工智能代理不同。现在的重点在于从数据中学习，而不是推理知识[6]。解释的作用已从教育性转变为转化性，使当今的人工智能做出决策的方式变得更加陌生[7, 8]。

XAI究竟是一个全新的领域，还是仅仅是一种回潮，尚有争议，但无论如何，对XAI的需求比以往任何时候都更加明显。当今最有效的人工智能不是设计出来的，而是教出来的。它们的智能来自于使用前所未有的计算能力对海量数据进行迭代算法[9]。这种基于复杂学习过程的智能的出现导致人工智能代理难以理解[10]。我们已经跨过了一个门槛，现在能够构建高效的人工智能代理，在各种任务上超越人类。这些人工智能代理往往由数十亿个学习参数组成。人类无法理解这些参数是如何相互作用的，以及这种相互作用是如何导致其令人印象深刻的性能的。XAI 旨在提供人们急需的关于如何使用人工智能而不必担心其后果的理解。XAI 寻求如何促进理解，使我们能够确定是否以及何时可以信任和依赖人工智能[7]。

欧洲政治机构提议对人工智能代理进行监管，并将其解释自身的能力作为一项要求。例如，考虑一下 2016 年欧盟 GDPR 中定义的解释权[11]。此后，这一定义宽泛的 "权利 "又在一份规范人工智能代理的法律框架提案中得到了进一步证实[12]。该框架规定，影响我们生活的高风险人工智能代理 "在设计和开发时应确保其操作足够透明，使用户能够解释系统的输出并适当使用"（第 13 条第 1 款）。这一规定强调了人类理解人工智能代理的必要性，以改善与人工智能代理的合作。

令人痛心的是，此类规定源于人工智能代理造成伤害的案例。近年来，在一些备受瞩目的案例中，我们的人工智能代理因缺乏理解而造成了负面的社会影响。例如，人工智能代理表现出种族主义行为，被用于预测美国司法系统中的累犯风险[13]；谷歌的人工智能代理根据种族将照片上的人标记为大猩猩[14]；亚马逊的人工智能代理根据性别过滤掉某些空缺职位的申请者[15]。在荷兰，我们面临着荷兰儿童保育福利丑闻的后果，该丑闻涉及使用人工智能代理，基于父母的双重国籍对他们进行歧视[1]。

随着 XAI 领域的发展，人工智能的未来将更加光明。XAI 界公认的假设是，如果人工智能代理能够解释自己的决定，那么有害的人工智能代理就能更容易地被识别、预防或减轻[7]。研究界正在努力寻找解决方案，而业界也在迅速采用这些解决方案[16]。除了 XAI 可以对人工智能代理进行验证和修正外，该领域的研究人员还一致认为，解释可以提高人们对人工智能代理的接受程度和有效使用[17]。这种接受度的提高与那些历来对使用人工智能代理犹豫不决的领域尤其相关[18]。这些领域包括医疗保健和军事，在这些领域中，决策可能会产生重大的负面影响，而我们的社会在引入人工智能代理时往往比较保守。因此，XAI 研究及其成果在提高人工智能代理的接受度和使用方面的潜力进一步证实了该研究的经济和社会效益。

图 1.1：可解释人工智能界对解释的主要目的的概述。虚线和高亮部分是本论文的重点。

总之，社会和经济都需要人工智能代理解释其决策，而XAI研究领域正努力满足这一需求。在接下来的章节中，我们将详细介绍我们的研究在推动 XAI 技术发展方面所做的努力，在此之前，我们首先阐述 XAI 的现状。

1.1.1 解释的多种目的

所有解释都旨在改善人类与人工智能代理在共同任务中的协作，但不同的解释在协作中可能有不同的目的[19]。在图 1.1 中，我们总结了人工智能代理在文献中最常见的解释目的。

我们将人工智能代理区分为三种人类角色，每种角色都有自己的主要目的：1）开发者；2）监管者；3）行动者。这些角色源自 Arrieta 等人[20]、Ribera 等人[21]和 Greeff 等人[22]所确定的角色。开发者帮助创建、部署和更新人工智能代理。监管者决定何时以及如何使用人工智能代理，以及其应用是否符合适当的法律和道德框架。最后，行为者是直接与人工智能代理打交道或合作的人类。行为者可以拥有完全自主权，即人工智能只提供意见或建议（如医疗诊断）；也可以拥有有限自主权，即由人工智能代理做出决定（如拒绝你的贷款申请）；还可以拥有介于两者之间的任何自主权（如一些决定由人类做出，另一些决定由人工智能代理做出）。相关角色包括客户、患者、操作员或顾问。值得注意的是，这些角色并不是固定不变的。例如，贷款申请被拒的行为者也可以充当监管者，如果某个决定让该行为者感到不公平的话。同样，如果监管者可以向人工智能代理提供直接反馈，以改进其自身，那么监管者也可以扮演开发者的角色。

除了不同的角色外，我们还区分了两类理解：1) 客观或全局理解，即理解人工智能代理作为一个整体是如何运作的[23]；或 2) 事后理解，即理解人工智能代理是如何做出决定的[24]。这两个类别并不相互排斥。许多后续的事后解释可能会引起对人工智能代理的客观理解（例如，对决策树如何运作的理解）。同样，足够详细的客观理解也有助于说明为什么会做出某个决策（例如，哪些决策规则在预测中发挥了作用）。不过，这两种理解的类别不同，理解的目的也不同。

我们利用这三种角色和两个类别来概述最常见的解释目的，如图 1.1 所示。开发人员最感兴趣的是客观理解。客观解释可以支持人工智能代理的调试[25, 26]，检测人工智能代理是否存在偏见[16, 27]，以及人工智能代理对立法的遵从程度[28]。相比之下，行为主体对事后了解决策更感兴趣，他们想知道是否可以信任和接受决策[7]或改变决策[29]，或者人工智能代理如何提高联合任务的绩效[30]，以及如何共同学习执行此类任务[31]。监管机构的独特之处在于既需要有限的客观理解，也需要事后理解。因为监管机构既希望对人工智能代理进行整体验证和评估，又希望在必要时了解具体决策[20, 22]。

迄今为止，上述目的在 XAI 中最受关注。关于这些目的和其他目的的更深入概述，我们可以参考 Lipton [32]、Doshi-Velez 和 Kim [33]、Samek 等人 [34]、Abdul 等人 [35]、Gilpin 等人 [36] 和 Herman 等人 [37]。在本论文中，我们将重点放在行动者角色及其对奇异决策的事后理解需求上。这些解释被认为对在日常生活中采用人工智能代理的人类最有用[18]。

1.1.2 解释的类别、形式、模式和方法

在过去几年中，已经开发出数百种生成解释的方法。评述此类方法的文章数量反映了这种需求。例如，以 Adadi 等人[38]、Guidotti 等人[39]、Arrieta 等人[20]和 Linardatos 等人[40]的综述为例，这些综述共报告了 303 种独特的方法。Nauta 等人[41]的广泛综述报告称，2016 年至 2020 年间共发表了 361 种新方法，其中 2020 年发表的方法超过了这一数字的一半（167 种），表明方法呈指数增长。每篇综述往往采用不同的分类法对 XAI 研究进行分类，这主要是由于该领域的术语缺乏共识[32]。在本论文中，我们并不试图提供一种新的甚至完整的分类法，但我们使用了 "解释类别"、"解释形式"、"解释模式 "和 "生成方法 "等术语作为参考。

解释类别是解释所传达的信息，因此与解释所回答的问题或满足的人类信息需求有关。Adadi 等人[38]、Guidotti 等人[39]和 Arrieta 等人[20]等人的综述全面概述了各种解释类别。对于本论文来说，重要的解释类别包括特征归因[17]、对比解释[42]、置信解释[43]和新的可操作解释类别。特征归因和对比解释是目前最先进的解释，可操作解释越来越多地被认为是必要的，但对它们的研究却很有限，而置信解释则是本论文提出的新类别。特征归因描述了哪些特征是人工智能代理做出决定的主要原因。对比性解释说明了为什么会做出一个决定而不是另一个决定。可操作的解释说明了人工智能代理需要做出哪些改变才能做出不同的决定，以及如何实施这些改变。置信度解释旨在计算和解释一个决定被证明是正确的可能性有多大。

常见的解释形式包括基于特征的解释[44]、基于实例的解释[45]和基于规则的解释[46]。这些形式分别提供了特征值和分布、具体行为示例以及决策规则，用于描述人工智能代理的决策和推理。尽管还存在其他形式，但在本论文中，我们仅限于基于特征、示例和规则的形式。事实证明，这些形式是人类可以理解的，而且可以通过各种方法生成。

解释的方式体现了信息的传播方式。常见的解释模式有：可视化但静态的解释交流[47]、通过交互式界面组件和仪表盘交流[48]，或通过文本和对话交流[49]。可视化方式包括条形图、龙卷风图和功能亮点[35]。这种静态可视化与交互性更强的界面和仪表盘形成鲜明对比，后者允许创建自己的可视化或支持知识的逐步发现。最近，人们正在探索基于文本和对话的解释，将其作为一种更自然的解释交流方式[50]。这方面的例子包括自动生成解释性文本、开发聊天机器人以及通过具有对话功能的化身进行互动。

解释生成方法或简称方法，是指用于从人工智能代理获取必要信息的算法和技术。我们将其分为代用模型和内在可解释模型两种[51]。代用模型近似于人工智能代理的决策过程，支持提取必要信息以生成解释（即一种逆向工程和模型推理）[17]。当人工智能代理被认为过于复杂而无法直接获取所需信息时（如使用深度神经网络），或当该方法旨在适用于任何人工智能代理时（如仅假设输入-输出访问），通常会使用这些方法。代用模型的使用与本质模型的使用不同，后者的目的是产生一个能直接获取所需信息的人工智能代理。例如，CART 算法可以根据数据创建决策树，人工智能代理可以根据这些数据做出决策[52]。决策树往往更具可解释性，其内容可以很容易地获取以作为解释的依据[53]。

通常情况下，人工智能代理的内在可解释性与性能之间存在权衡[7]。例如，深度神经网络被认为是以牺牲可解释性为代价来实现高性能的，而决策树则被认为性能有限，但更具可解释性。然而，这种说法在实践中并不一定成立[58]，也不一定总能做出区分。例如，小型神经网络可能比大型决策树更具可解释性。同样，考虑到某人的背景对解释者决策的影响，对于社会科学家来说，由于他们熟悉应用统计学，回归模型可能比数学性质更强的支持向量机更容易解释。对于外行人来说，这两种模型可能都无法解释。人类的背景和专业知识对解释的设计有重大影响。人工智能代理的可解释程度决定了在人类的背景和信息需求下，获取必要信息以生成所需解释的难易程度。只要我们不知道需要什么解释，不知道对谁需要解释，关于性能与可解释性之间权衡的辩论就毫无意义。在不知道需要解释什么的情况下，就无法确定生成解释所需的方法--即使用内在可解释模型还是代用模型。

图 1.2：若干解释类、形式、模式和生成方法概览。它们组合在一起就构成了解释的实现。这里有四个例子：CLUE [54]、SHAP [55]、合成动作序列 [56] 和下降规则列表模型 [57]。

只有将解释的类别、形式和方式与生成解释的方法结合起来，才能形成真正的解释。一种方法只能为特定类别的解释提取信息，形式决定了信息的形状，而方式则决定了信息的传播方式。图 1.2 举例说明了四种此类组合：用于交互式解释人工智能代理信心的仪表板 CLUE [54]、龙卷风图中可视化的特征归因方法 SHAP [55]、通过合成动作序列改变人工智能代理决定的动作建议 [56] 以及通过基于规则的模型解释作出决定的原因 [57]。

1.1.3 XAI 的零散领域

随着人工智能技术的飞速发展以及相关的令人印象深刻的成果，XAI 领域也同样受到以技术为中心的观点的支配[33]。XAI 领域的大多数出版物都提出了生成解释的新方法[38, 39]。除了对其准确性和计算效率进行评估外，这些方法往往缺乏评价。Nauta 等人[41]报告说，2016 年至 2020 年间，共有 361 篇论文提出了新方法，其评估仅限于此类基准。同期只有 49 篇论文对生成的解释进行了更深入的评估。Doshi-Velez和Kim[33]进一步指出，XAI领域遵循 "当你看到它时，你就会知道它"（第1页）的理念。新方法的作者似乎依靠自己的直觉来判断其方法所产生的解释是否有益和有价值[59]。

有几位学者批评了 XAI 研究界这种以技术为中心的观点，并主张采用更加以人为本的观点。一些人认为，XAI 应更加注重严格的评估，以评估解释的效果[60]。Doshi-Velez 和 Kim [33]定义了三个不同层次的评估：1）以应用为基础的评估；2）以人为基础的评估；3）以功能为基础的评估。

应用基础评估涉及在现实环境中对解释进行评估，使用实际的人工智能代理和符合环境的代表性人口样本。这些评估提供了解释在特定应用中的效果的详细结果。以人为基础的评估适用于测试解释的一般概念。这些评估往往使用简化的人工智能代理、相关背景的近似值、非专业人士作为参与者或两者的结合。以功能为基础的评估利用了一些指标作为解释质量的代用指标，这些指标可用于某些方法生成的解释。这些方法不包括人类参与者，其功能是评估一种方法是否符合以前评估过的解释类别，或者由于实际或伦理方面的原因无法评估的解释类别。需要注意的是，前两个层次，即以应用为基础的评价和以人为基础的评价，可以通过定量来统计解释的效果，也可以通过定性来探索解释的潜在效果。在本论文中，我们使用了定量和定性的人本评价以及对已开发方法的功能评价。本论文未报告应用评估。

对以技术为中心的观点的批评是，这种观点只关注功能评估，而很少或根本不关注人或应用的评估[33]。更有甚者，反对以技术为中心观点的人认为，这种观点会导致在现实应用中不负责任地使用方法[58, 23]。这里的共同论点是，在实践中，解释需要以人为基础的评估来指明哪些解释可能有利于某些目的，然后再进行详细的应用基础评估，以进一步证实这些结论。只有这样，解释才能在应用中得到负责任的应用。

除了严格的评估之外，我们还可以依靠以人类心理学为基础的坚实理论基础，来确定哪些解释应该用于何种目的以及何种应用[61, 59]。在理想情况下，我们可以利用这样的理论基础来设计解释，然后通过以人为基础的评估来评价假设和假说，再通过以应用为基础的评估来验证结果。

最后，也有人完全反对使用自我解释的人工智能代理[62, 63, 64]。这些批评并不一定否定解释的价值，相反，他们认为要实现值得信赖和负责任的人工智能代理，还需要更多的努力。他们认为，人工智能代理的开发可以省去解释自己的必要，例如，通过认可的开发方、提供清晰的文档、教育与人工智能代理互动的人，以及适当的设计流程来支持互动。这种立场忽略了解释为人类与人工智能代理之间的合作提供的附加价值。本论文同意，要实现值得信赖的人工智能，需要的不仅仅是解释，尽管解释是解决方案的一部分。即使人工智能代理经过了严格的测试，有足够的文档资料，与之合作的人类也受过适当的教育，解释仍有可能改善和丰富这种合作。

与以技术为中心的总体观点相关的另一个趋势是，许多缺乏严格评估的已开发方法往往被开源。业界迅速采用这些开源方法，以满足人工智能代理（预期的）法律、道德和经济要求[65]。采用这些方法的趋势，以及缺乏对这些方法的解释所带来的影响的评估，有可能给我们的社会带来灾难性的影响[58]。我们面临的风险是，我们的社会假定对所使用的每个人工智能代理都有所了解，而解释实际上可能对我们与它们的实际合作只有很小的积极影响，甚至是负面影响[66, 67]。

与此同时，以技术为中心的社区似乎越来越多地从以人为本的角度来看待 XAI（例如，参见米勒等人的立场文件[59, 68]）。这些论文每年都会收到数以百计的参考文献，大多数参考文献的作者都会介绍新颖的解释方法。然而，问题仍然在于，这些方法在多大程度上可以推广，以及在付诸实践之前，如何通过严格的评估了解其效果。

图 1.3 展示了本论文的重点，包括评估类型、解释的类别、形式、模式和生成方法。

1.2 研究方法与目的

在本论文中，我们采用以人为本和以技术为本的视角来研究 XAI。通过回顾以人为本的人工智能和 XAI 研究，我们确定了四种解释目的。第一种是解释目的，即让普通人了解人工智能代理做出某种决定的原因。第二是校准人类对人工智能代理决策的信任。第三个目的是让人类有能力对这些决定提出有效的质疑。我们要解决的第四个问题是解释如何改善人类与人工智能代理之间的合作，尤其是在高风险和道德敏感的任务中。我们通过回顾人工智能和 XAI 方面以人为本的文献，确定了这些目的。此外，我们还使用受这些文献启发或借鉴的方法来评估我们设计的解释。最后，如果没有方法生成我们设计的解释，我们在大多数情况下会根据以技术为中心的 XAI 文献中的方法开发自己的解释。

我们认为，只有结合以人为本和以技术为本的视角，我们才能得出在现实世界应用中负责任和可行的解释。特别是在本论文中，对 XAI 的社会需求使我们将重点放在人工智能代理的决策直接影响相关参与者（例如，与人工智能代理合作的专家或最终受制于所做决策的人类）生活的应用上。总之，我们的研究目标如下：设计和开发支持人类与人工智能代理之间负责任和有效合作的解释。

1.3 研究问题、假设和大纲

本论文由三个部分组成，每个部分都涉及上述研究目标的一个方面。第一部分涉及对比解释类，旨在表达为什么人工智能代理做出了某种决定，而不是另一种决定。这一部分讨论了这类解释应采取什么形式，以及如何生成这类解释。第二部分介绍了两种新的解释类别并定义了它们的属性：置信解释和可操作解释。对于置信度解释，我们提出了一种生成方法。对于可操作解释，我们提供了一个研究议程，以便根据当前的研究空白进一步解决此类解释的问题。

第三部分探讨了各种解释类别、形式和模式对人类和人工智能代理之间合作的影响。高风险和道德敏感任务中的协作。在每个连续的部分中，我们都将讨论我们对整个人类与人工智能协作的研究目标。下面，我们将更详细地讨论每一部分，然后是论文提纲。

1.3.1 第一部分：促进理解的解释

第一部分讨论了人工智能代理应该如何解释它做出一个决定而不是另一个决定的原因，即对比解释。

人工智能解释经常被提及的目的是在人工智能代理的决策过程中引起人类的理解[17]。对比解释的目的就是诱导这种理解，因为它们解决了人类的大多数 "为什么？"的问题[68]。这些解释的一个子类是反事实解释，它传达的是人工智能代理采取不同行为的最小变化[29]。反事实解释能让人准确理解人工智能代理的决策边界[42]。另一方面，特征归因的类似解释只能让人理解哪些特征对决策至关重要。特征归因提供的解释是："特征 x 对这一决策最重要"，而（基于规则的）对比解释提供的解释是："因为特征 x 高于阈值 t，所以做出了这一决策，而不是另一个决策"。

如果任何人工智能都能提供这样的对比性解释，那将是非常有益的。人工智能的对比性质是将做出一个决定的原因与做出另一个决定的原因进行对比，这自然会将所解释的信息限制在人类感兴趣的关键差异上[68]。然而，人们还不知道对比性解释中的信息应采取何种形式，也不知道如何从任何给定的人工智能代理中提取这些信息。在本部分中，我们将探讨对于对比解释类来说，基于示例还是基于规则的形式最为有效。此外，我们还探讨了如何为两种人工智能技术生成这样的解释：决策支持工具中使用的分类模型和自主系统中使用的强化学习代理。通过这种方法，我们可以评估为各种人工智能代理生成对比性解释的有效性和可行性。

第一部分的相关研究问题是：

问题 1：人工智能代理应该如何解释它为什么做出一个决定而不是另一个决定？

问题 1.1：基于例子和规则的对比性解释对理解人工智能代理的决策有何影响？- 第 2 章

问题 1.2：哪种解释生成方法可以为决策支持工具中使用的分类模型生成基于规则的对比解释？- 第 3 章

问题 1.3：哪种解释生成方法可以为自主系统中使用的强化学习代理生成基于实例的对比解释？- 第 4 章

1.3.2 第二部分：需要采取行动的解释

第二部分讨论了人工智能代理的解释如何帮助人类确定何时以及如何根据代理的决定采取行动。

XAI研究人员认为，对人工智能代理如何决策的事后理解是了解如何与人工智能代理合作的一个步骤，因为这种理解有望带来更好的信任校准，进而提高联合任务的绩效[61]。这种理解可以让人类推断出如何质疑和改变人工智能代理的决定，尤其是当他们对人工智能代理的决定不满意时[29]。我们认为，解释可以做得更多，而不是仅仅依靠解释来诱导一种事后理解，从而希望校准信任度和支持可争议性。事实上，人类会根据自己的预期目的调整解释[69]，那么为什么不直接根据这些目的来设计人工智能代理的解释呢？人工智能代理可以通过解释实现更多，而不仅仅是诱导人们理解其功能[23]。

在第二部分中，我们将重点讨论两类解释。首先，我们将介绍新颖的置信度解释。其次，我们正式定义了迄今为止尚不明确的可操作解释类别。信心解释旨在校准人们对人工智能代理决策的信任和依赖。我们介绍了这一类别，定义了其所需的属性，验证了这些属性，并提出了计算信心和解释这一计算的具体方法。可操作解释的目的不仅在于诱导事后理解，还在于支持人类推断如何改变人工智能代理的决策。我们回顾了有关这类解释的文献，并正式定义了使解释具有可操作性所需的属性。此外，我们还根据文献综述中发现的研究空白提出了研究议程。通过这两类解释，我们旨在支持人类决定是否以及如何对人工智能代理的决策采取行动，告知人类其决策的可信度和可靠性，以及如何有效地质疑和改变决策。

第二部分将讨论以下研究问题：

问题 2：哪类解释能让人类决定是否以及如何对人工智能代理的决定采取行动？

问题 2.1：人工智能代理应如何计算和解释其可信度，从而使人类能够决定何时信任和依赖该代理的决策？- 第 5 章

问题 2.2：哪些解释属性可以帮助人类有效地改变人工智能代理的决定，使其更有利？- 第 6 章

1.3.3 第三部分：人类与人工智能合作中的解释

在第三部分中，我们提出了如何将解释负责任地融入人类-人工智能协作的设计方法，并对几种协作设计进行了评估。

约翰逊和阿隆索[70]说过："任何人工智能代理都不是一座孤岛"，这意味着任何人工智能代理要想取得成功，都需要与人类合作。目前，即使是 XAI 中从以人为本的角度出发的文献，也很少涉及使用解释来明确支持人类与人工智能协作的问题[71]。本论文的前两个部分也有类似的狭窄关注点。因此，在第三部分中，我们将从具体的解释类别中抽象出来，探讨解释在人机协作中的作用。具体来说，我们关注的是具有道德敏感因素的联合任务，这些任务是人工智能代理的高风险应用。

我们首先提出了一种设计方法，允许在人类-人工智能协作中将解释嵌入道德敏感任务及其道德背景中。我们通过几种常见的协作设计来演示这种方法。我们用解释道德背景的想法扩展了每种设计，以支持共同决策。然后，我们通过一个由医学领域专家参与的定性实验，对几种协作设计进行了评估，并探索了每种设计中不同解释类别的效果。

在第三部分中，我们旨在回答以下研究问题：

问题 3：当人类和人工智能代理合作完成道德敏感任务时，解释的作用是什么？

问题 3.1：什么是适合人类与人工智能合作的设计方法，它能负责任地纳入对道德背景的解释？- 第 7 章

问题 3.2：领域专家与人工智能代理合作完成道德敏感任务时，解释的效果和作用是什么？- 第 8 章

1.3.4 提纲

第一部分讨论了人工智能代理如何解释自己做出决定的原因。第二部分讨论了哪些解释有助于人类确定如何根据人工智能代理的决定采取行动。第三部分讨论了在人类与人工智能合作执行道德敏感任务时，解释的设计、功能和效果。最后，第四部分讨论了本研究的发现、局限性和社会影响。本部分还提供了结束语和未来工作，并对 XAI 领域的发展方向提出了建议。

图 1.4 展示了这一章节大纲。该图强调了每一章的类别、形式、模式和方法（如适用）。它还涉及所进行的评估类型：以人为基础还是以功能为基础；定性还是定量。没有进行以应用为基础的评估。

每一章都由已发表的期刊或会议论文组成，改动极少。为防止与本介绍性章节重叠，这些改动包括改编摘要和缩短章节介绍。此外，大多数章节都做了细微改动，以确保术语使用和写作风格与本章介绍的保持一致。这些改动在每章首页都有概述。

1.4 界定范围

本研究的范围取决于我们如何解释关键概念、做出选择和假设：

我们将 "解释 "定义为一个人工智能代理与另一个人工智能代理之间的交流行为，其中包含一个或多个澄清事件、背景或过程的声明。在本研究中，我们将 "解释 "定义为人工智能代理向人类说明其内部流程和相关方面，如观察结果或决策的预期后果。
我们不讨论解释的方式，只讨论解释的类别、形式和方法。
我们不考虑人工智能代理应该能够解释和学习的人类给出的解释。此外，我们的解释旨在揭示人工智能代理是如何运作、执行或行为的。我们并不明确旨在解释如何执行任务，也不传授有关领域或情境的知识。
当我们提到 "人类 "时，我们通常指的是具有行动者角色的人类，如前所述。根据所讨论的用例，这种人可能是领域专家，也可能是普通人；但他们绝不是人工智能代理方面的专家。我们不讨论只对扮演开发者或监管者角色的人类有益的解释。某些结果可能也适用于这类角色，但本论文从未验证这一假设，而是留待今后工作中验证。
本文自始至终都假定，人类与人工智能代理合作的动机是明确的。第 6 章是一个例外，在这一章中，人类受制于人工智能代理的决策，但并不一定意识到这一点，也不一定是该领域的专家。此外，我们没有考虑更具体的特征，如（数字）读写能力以及这些特征对解释的要求。
当我们提到 "人工智能代理 "时，我们通常指的是一个能够根据对情况的感知做出决策的软件系统。我们假定一个决定是由人工智能代理本身执行的，或者是由人类执行的，而某些决定是作为建议提供给人类的。
本论文中的解释都是事后的，也就是说，它们旨在解释一个单一的决定。这与旨在解释整个人工智能代理及其起源的客观解释不同。
实现人工智能代理有多种方法。我们试图从任何具体的实现方式中抽象出来，并致力于以与模型无关的方式生成解释。与模型无关意味着只假设人工智能代理的输入输出访问，而不对人工智能代理的内部功能做进一步假设。不过，我们一般假定，人工智能代理是利用一个或多个机器学习模型和相关组件构建的。