（2023|SaTML，解释&综述）迈向透明 AI：解释深度神经网络内部结构_toward transparent ai: a survey on interpreting th-CSDN博客

过去十年，机器学习的规模和能力都出现了大幅增长。深度神经网络 (DNN) 越来越多地部署在现实世界中。然而，它们很难分析。如果不严格了解它们的功能，就会引发人们对使用它们的担忧。解释它们的有效工具对于通过帮助识别问题、修复错误和提高基本理解来构建更值得信赖的人工智能非常重要。特别是“内部”可解释性技术，专注于解释 DNN 的内部组件，非常适合发展机制理解、指导手动修改和逆向工程解决方案。

最近的许多工作都集中在 DNN 可解释性上，但迄今为止的快速进展使得方法的彻底系统化变得困难。在本次调查中，我们回顾了 300 多件作品，重点关注内部可解释性工具。我们引入了一种分类法，根据方法有助于解释网络的哪些部分（权重、神经元、子网络或隐表示）以及它们是在训练期间（内在，intrinsic)）还是在训练后（事后，post hoc）实施，对方法进行分类。据我们所知，我们也是第一个调查可解释性研究与对抗鲁棒性、持续学习、模块化、网络压缩和研究人类视觉系统工作之间的许多联系的人。我们讨论了关键挑战，并认为可解释性研究的现状基本上是没有成效的。最后，我们强调未来工作的重要性，强调诊断、调试、对抗和基准测试，以使可解释性工具对实际应用中的工程师更有用。

1. 简介

重要的是，从业者能够理解 AI 系统如何做出决策，尤其是它们的问题。模型通常是根据其在特定任务的测试集上的性能来评估的。这引起了人们的担忧，因为黑盒在测试集上表现良好并不意味着学习到的解决方案是足够的。测试集通常无法捕获完整的部署分布，包括潜在的对抗性输入。他们也未能揭示与测试性能不直接相关的模型问题（例如学习有害偏差）。此外，即使用户意识到了不足之处，系统的黑匣子性质也可能导致修复问题变得困难。因此，构建安全可靠的 AI 系统的关键一步是拥有一个扩展的工具箱来检测和解决问题。

我们将可解释性方法定义为可以用人类可理解的术语来表征人工智能系统计算的任何过程。这涵盖了 DNN 文献中广泛的技术，但在本文中，我们特别关注理解内部结构和表示的方法（即不是数据、输入、输出或整个模型）。我们称这些为内部可解释性方法。我们介绍了这些方法的分类法，提供了文献概述，强调了可解释性与深度学习中其他主题之间的关键联系，最后给出了继续工作的方向。我们的中心目标有两个：（1）为现有的内部可解释性工作提供全面的资源；（2）为继续研究提出方向。

1.A 可解释 AI 的重要性

在这里，我们概述了几个主要动机。

开放式评估：如果没有实际部署系统，任何评估其性能的方法基本上只能是其性能的代理。特别是，测试集可能无法揭示（并且常常会激励）不良解决方案，例如数据集偏差、对社会有害的偏见或开发欺骗性解决方案。因此，拥有严格评估系统性能的其他方法非常重要。可解释性技术最重要的优势之一在于其独特的能力，与标准评估方法不同，它允许人类更加开放地研究模型并寻找缺陷。

展示失败：揭示模型无法产生正确输出的原因可以深入了解失败的情况以及如何检测它们。这可以帮助研究人员避免出现问题，并帮助监管机构为已部署的系统制定适当的规则。

修复 BUG：通过理解问题和/或生成利用该问题的示例，可以重新设计、探测、微调和/或进行对抗性训练网络，以更好地使其与用户的目标保持一致。

确定责任：正确描述行为对于在误用或部署失败的情况下确定责任至关重要。

基本理解的改进：通过为用户提供有关模型、数据和/或算法的更多基本见解，可解释性技术可有助于降低已部署系统的风险或更好地预测 AI 的进展。然而，如果基本认识的提高导致风险能力的进步超过有效监督的速度，那么它也可能是有害的。我们将在第七节讨论这一点。

“显微镜” AI：严格理解人工智能系统如何完成任务可能会提供额外的领域知识。这可能包括有关解决整个任务的见解或特定示例的属性。这一目标被称为“显微镜” AI [133]，它可以允许逆向工程更容易理解或可验证的解决方案。这对于研究具有超人性能的系统可能特别有价值。

1.B 范围

内部可解释性：我们的重点是 DNN 的内部可解释性方法。黑盒技术、对抗技术、输入归因方法、神经符号方法和 “好的老式 AI” 都很有价值，但超出了本次调查的范围。这并不是说它们对于构建更安全的人工智能的价值不如我们关注的方法——它们中的许多方法都具有重大优势，并且多样化的可解释性工具箱很重要。然而，我们专注于内部可解释性方法，因为（1）目前人们对它们有很大兴趣，（2）它们对于某些目标来说装备精良，例如指导手动修改、逆向工程解决方案和检测内部“潜在” 可能导致欺骗行为的知识。

与过去的调查工作的对比：

另请参阅之前与我们的调查和可解释性工作重叠的几项调查和批评[3]、[69]、[71]、[79]、[112]、[136]、[155]、[178] ]、[200]、[202]–[204]、[243]、[244]、[251]、[254]、[255]、[314]。
与本次调查不同，[79]、[155]、[178]、[200]、[243] 是批评/立场工作，没有广泛调查现有工作
[3]、[71]、[112]、[203 ]、[204]、[244]、[254]、[255] 大部分或全部关注超出本工作范围的方法（例如非 DNN 或特征归因）
[69]、[136] 仅调查对于语言模型的方法
[314] 仅关注卷积网络
[251] 仅调查单神经元方法
[203]、[254] 仅关注事后（post hoc）方法
[3]、[79]、[112] 、[178]、[200]、[243]、[255]、[314] 比较旧（2020年之前）。
这项调查与上述所有调查的不同之处还在于它关注内部可解释性、对诊断和调试的影响以及可解释性与许多其他研究范式之间的交叉点。

1.C 分类法（Taxonomy）

我们的分类法将内部可解释性技术按照它们解释 DNN 计算图的哪一部分进行划分：权重、神经元、子网络或隐表示。我们将第 2-5 节分别介绍这些方法。可解释性技术也可以根据是否在训练期间或训练后使用来划分。内在（Intrinsic）可解释性技术涉及训练模型以使其更易于研究或具有自然的解释。事后（post hoc）技术旨在在模型训练后对其进行解释。我们根据方法在小节级别上是内在的还是事后的来划分。

图 1 描述了我们的分类法并预览了第 2-5 节的组织。请注意，此分类有时会划分相关方法。例如，权重（第 2-A 节）和神经元（第 3-A 节）的持续学习方法在概念上相似，解释子网络（第 4 节）的方法经常涉及权重（第 2 节）或神经元（第 3 节）方法的变化或应用。当我们讨论下面的方法系列时，我们会注意到这些联系。然而，我们首先根据它们所针对的网络部分来划分方法，因为技术如何在网络上运行通常对于面向目标的工程来说比它是否在训练期间或之后发生更重要。

2. 权重

2.A 持续学习（Intrinsic，内在）

深度学习的一种研究范式是训练能够学习新任务而不忘记旧任务的系统。这被称为持续学习或避免灾难性遗忘[72]，[267]。一些技术的原理：基于专门针对特定类型输入数据的权重，对某些数据的更新比其他数据要多[8]、[11]、[150]、[175]、[191]、[278]、[312]。这提供了一种根据其专业的任务或类别来表征权重的自然方法。不幸的是，目前对这些方法的研究尚未重点改进对权重或子网络的解释。这可能是未来工作的一个有用的方向。另请参阅第 3-A 节中对神经元进行持续学习的方法。

2.B 权重掩蔽（Post Hoc，事后）

与内在方法相比，我们还可以通过网络训练权重掩模，以确定哪些权重对于哪些任务至关重要[65]、[304]、[319]。例如，可以训练分类器权重上的掩码以覆盖尽可能多的内容，同时保留数据子集的性能。生成的掩码标识了权重的子集（以及相应的子网络），可以因果地理解为专门从事该子任务。这种方法也适用于识别专门从事某项任务的子网络（第 4 节）。

2.C 琐碎（frivolous）权重（Hazard，风险）

解释权重的一个困难在于，许多权重通常对网络来说并不重要。过去的工作表明，网络通常可以被修剪以包含其原始权重的一小部分，而性能几乎没有损失（尽管有时需要微调）[33]、[102]、[283]。另请参见琐碎神经元（frivolous neurons）（第 3-G 节）。

3. 单个神经元

正如文献中常见的那样，我们使用“神经元”来指代密集层（dense layers）中的单元和卷积层中特征图的元素。

3.A 持续学习（Intrinsic）

正如持续学习 [72]、[267] 可以通过权重的专门化来促进（参见第 II-A 节），神经元也可以这样做。与基于权重的持续学习方法不同，基于神经元的连续学习方法通常依赖于在遇到新任务时向架构添加新神经元[167]、[247]、[310]。这阻碍了神经元学习同时检测多个不相关任务的特征，并允许根据神经元专门从事的子任务来自然解释神经元。与对权重进行操作的持续学习方法一样，目前对这些方法的研究并未强调改进神经元或子网络的解释。这可能是未来工作的一个有用的方向。另请参见第 4-B 节，其中讨论了神经元之间的模块化方法。

3.B 基于数据集（Post Hoc）

表征单个神经元作用的一种简单方法是使用数据集来分析它们响应哪些类型的输入。

也许最简单的例子是搜索数据集并选择最大程度地激发给定神经元的输入[323]。
一种称为网络“解剖”的更复杂的技术使用标记丰富的语义概念数据集来分析神经响应[25]–[27]。然后可以根据神经元的激活与不同类型输入的匹配程度来表征神经元。这一系列工作已经扩展到使用一组标签上的组合逻辑表达式来为神经元分配描述[208]。这使得神经元的可解释性可以被量化为输入特征和神经元激活的逻辑公式的交集。通过使用字幕（captioning）方法来描述一组激活神经元的图像块，这已被进一步扩展以开发自然语言解释[125]，[219]。事实证明，这些方法对于识别网络中的不良偏差非常有用[125]、[208]。
解剖还被用于分析对抗性示例利用了哪些类型的神经元[306]，识别文本到图像模型的故障模式[57]，并探测 Transformer 中的神经响应以隔离特定信息的存储位置[68] 、[98]、[105]、[106]、[197]、[288]。然后可以通过编辑学到的事实（例如不良偏差）来改进模型[68]、[197]。
不幸的是，所有基于数据集的方法都受到所用数据集中示例的多样性和标签质量的限制。另请参阅第 5-F 节中的探测方法。

3.C 特征合成（Post Hoc）

该方法基于合成输入，其目标是最大程度（或最小程度）激活给定神经元或神经元组合。合成方法的优点是不限于特定的数据集。

有几项工作采用了这种方法，优化输入以激发特定神经元[189]、[213]、[223]。人们可以在优化目标中使用距离度量来合成一批不同的输入[223]。
还有一些工作致力于使用生成模型而不是直接优化输入特征[49]、[51]、[211]、[212]。 [214] 提供了对这些类型方法的更广泛的调查。
然而[38]发现，强烈激活单个神经元的自然样本比合成特征更能帮助人类预测对数据的神经反应。

3.D 神经扰动和消融（Post Hoc）

通过分析 DNN 在神经元扰动下的行为，人们可以深入了解其处理的信息类型。例如，如果图像分类器中的神经元能够稳健且唯一地检测到狗，那么当该神经元被消融（即退出）时，人们应该预期分类狗的性能会恶化。这些方法的一个主要好处是它们允许测试反事实，帮助建立神经激活和网络行为之间的因果关系而不是相关关系。

该领域的工作使用了神经消融 [127]、[325]、子空间消融[207]、[236] 和非消融扰动 [24]、[84]。
值得注意的是，扰动神经元的净效应可能会因环境而异，并且其他神经元（如果有的话）也会受到扰动。
为了解释这一点，我们可以计算神经元的 Shapley 值，以衡量其相对于其他神经元消融的平均重要性 [111]，[270]，这已被证明是一种识别神经元的实用方法，可以删除或修改这些神经元以减少偏差或提高鲁棒性 [111]。然而，Shapley 值提供有用因果解释的能力有限[159]。

3.E 基于梯度的归因（Post Hoc）

基于梯度的特征归因已经做了很多工作，以研究哪些特征对神经反应或模型输出有影响。

对特征归因方法有一些调查和批评，特别是 [4]、[5]、[15]、[74]、[77]、[99]、[129]、[139]、[141]、[216] ]、[266]、[318]。这些工作大部分是为了研究投入的归因，不属于本次调查的范围。然而，相同类型的方法已应用于内部神经元的归因。
[273] 为此引入了一种方法，使用梯度以及敏感性和不变性的即时测试来评估解释的质量。
在此基础上，一些研究发现基于梯度的归因在大型语言模型中很有用 [14]、[81]、[187]，包括指导搜索某些事实的存储位置 [68]。然而，这些方法的局限性在于，解释仅与梯度所基于的局部线性近似一样有效，并且不能直接提供因果解释。

3.F 多语义神经元（Hazard）

多语义神经元由多个不相关的特征激活。

它们是通过基于数据集的方法 [100]、[125]、[208]、各种形式的视觉特征合成[ 114]、[213]、[221]、[290] 和特征归因 [85] 被发现的。
它们如何以及为何形成仍然是一个悬而未决的问题。
然而，[221]观察到单语义神经元在训练过程中变得多语义的趋势，并假设它与更有效地表示信息有关。这表明多语义神经元可能对模型性能有用。
然而，由于两个原因，它们也构成了重大挑战。首先，多义神经元的解释更有可能是不正确或不完整的。其次，事实证明它们可以被用于对抗性攻击[125]，[208]。
另请参阅第 5-C 节对纠缠的讨论，它将多语义性的概念概括为层。

3.G 琐碎的神经元（Hazard）

琐碎的神经元对于网络来说并不重要。

[48]定义并检测两种不同的类型：可修剪神经元（可以通过消融从网络中删除）和冗余神经元（可以通过重构权重矩阵删除）。它们对可解释性提出了挑战，因为无意义的神经元对网络的贡献可能毫无意义或难以用某些方法（例如神经扰动）检测到。
网络压缩可能提供一个解决方案。例如，[122]、[131]、[188]、[250]、[268] 均通过消除无意义的神经元来压缩网络。压缩和神经元的可解释性是相关的。压缩网络后，[174] 发现剩余的神经元更具可解释性，性能仅发生边际变化，并且[308]使用神经元可解释性代理来指导神经元级修剪。
此外，修剪以提高可解释性的动机与本质上可解释的层表示密切相关。
另请参阅第 2-C 节中关于无意义权重的内容和第 5-C 节中关于神经解缠结的内容。

4. 子网络

请注意，许多用于分析子网络的方法都依赖于权重（第 2 节）或神经元（第 3 节）技术。

4.A 稀疏性（Intrinsic）

DNN 内部的稀疏权重可以更简单地分析神经元之间的关系。

在某些情况下，稀疏化可以将权重数量减少几乎两个数量级，同时几乎不会对性能造成影响[102]。
通过剪枝 [29]、[101]、[205]、[303] 正则化 [242] 和稀疏注意力 [196] 探索了稀疏性辅助的可解释性。特别是，[303] 演示了如何将稀疏性与神经元分析的 post-hoc 技术结合起来，以帮助人们编辑模型。这对安全和去偏差有直接影响。
网络架构的修剪部分也可以通过可解释性的度量来指导 [296]、[309]。
同时，作为传统稀疏性的替代方案，[305] 引入了一种方法来规范神经网络的行为以模仿决策树的行为。

虽然稀疏性简化了子网络的分析，但它可能不会提高单个神经元的可解释性。 [101] 发现通过剖析修剪后的网络并没有增加它们的可解释性，并且 [196] 未能找到稀疏注意力的单个神经元的可解释性提高的证据。

4.B 模块化（Intrinsic）

在高层次上，[13] 提供了 DNN 模块化技术的调查，[7]、[201] 研究了模块化网络与整体网络相比的功能和通用性。
设计模块化 DNN 最简单的方法是使用显式模块化架构。这可以被认为是 “硬” 模块化。
如果使用特定领域的考虑因素来指导设计，这可以是“模型辅助深度学习” [265] 的一种形式。
[291] 研究了模块化架构，他们分析了分支架构中的神经元学习处理与其他分支中的神经元不同特征的程度，[307] 尝试了不同的神经模块，这些模块被训练来执行算法子程序。

除了分支架构之外，如果不同模块中的神经元相互连接但必须竞争对信息的访问，则可以实现 “更软” 的模块化形式。

这可以实现端到端的可区分性，但模块之间的信息流却稀疏。
通过初始化 [96]、正则化 [96]、控制器 [140]、[151] 或稀疏注意力 [16]、[85]、[115]、[261] 研究了软模块化方法。
值得注意的是，[261] 使用注意力来诱导神经元的专业化并减少灾难性遗忘。
另请参阅第 3-A 节中通过让神经元子集专门从事给定任务来避免灾难性遗忘的方法。

4.C 模块化分区（Post Hoc）

从模块角度理解 DNN 的一种事后方式是将神经元划分为一组子网络，每个子网络由相关的神经元组成。

为了实现这一目标，[96]、[298]、[299] 根据网络权重的图形分析将神经元划分为模块，并分析每个模块中神经元的不同程度。这些方法不涉及数据或即时分析。
相比之下，[18]、[50]、[127]、[163]、[297] 均根据神经元与输入和/或输出的关联方式执行分区和聚类分析。特别是，[127] 提出了一种统计流程，用于在没有人类参与的情况下估计神经元簇的可解释性。
然而，总的来说，这些方法在寻找模型中的高度复合划分方面取得的成功非常有限。未来工作的一个有用方向可能是将这种方法与内在模块化方法结合起来。

4.D 回路分析（Post Hoc）

一种更简单的方法是研究网络内部的各个子网络，而不是分析网络的整个分区。

这些通常被称为神经“回路”，可以小到只有几个神经元和权重。
这是通过权重掩蔽 [65]、[295]、基于数据的方法 [94]、[257]、[280]、[315]、[316]、特征合成[45]、[220]–[224]、[233]、[260]、[290] 和神经消融 [118]、[198] 来完成的。
然而，迄今为止，回路分析的许多成功都集中在玩具模型上，并需要人类专家的大量努力。
为了在实际应用中改进模型，未来的方法可能需要利用自动化。[239] 通过将 DNN 提炼成一组概念上的稀疏符号因果图，并为图的真实性提供理论保证，在这方面取得了进展。
有关 transformer 回路的讨论，另请参见第 5-D 节。

5. 内部表示（Internal Representation）

5.A 自解释模型（Intrinsic）

文献中用于理解 DNN 的大多数方法旨在帮助人类 “打开” 网络并研究其中的一部分。如果一个人想理解另一个人的推理，类似的技术将涉及直接研究他们的大脑。这些有时很有用，但在大多数情况下，简单地询问另一个人对他们的想法的解释会更有效。自我解释的人工智能系统旨在以类似于人类提供内部推理的方式提供此类解释。文献中提供了相互竞争的定义，但我们将使用基于 [87] 的定义，该定义仅要求模型对其推理产生易于人类理解的解释，最好与置信度估计配对。

在计算机视觉中，一种方法是根据图像与一组学习的 “原型” 的相似性对图像进行分类 [12]、[53]、[145]、[171]、[248]、[313]。基于原型的分类也在语言模型中进行了研究 [92]。这些方法允许模型将其输出归因于一组示例性数据点，从而允许将其决策解释为 “此输入类似于这些其他示例”。

另一种不言自明的人工智能策略是，监督对根据相同内部表示计算的、模型输出的、人类可理解的解释。

在计算机视觉中，这已用于分类和问答 [9]、[123]、[124]、[149]、[230]。
在自然语言处理中，这已经用于问答和自然语言推理，并带有解释 [43]、[160]、[162]、[320]。对于具有足够通用语言能力的大型语言模型，也可以简单地通过提示引出解释（例如，[40]、[58]）。
然而，这些解释在多大程度上准确地解释了模型的决策尚不清楚 [142]。

[12] 认为解释应该满足三个标准：

（1）明确性：解释是否直接且易于理解？ (2) 忠诚度：他们是否正确描述了决策？ (3) 稳定性：对于类似的例子，它们的一致性如何？
事实证明，此类模型的解释可能不忠实 [12]、[284]，或者容易受到对抗性示例的影响 [44]、[128]、[321]，因此生成满足这些要求的自解释模型仍然是一个开放的挑战。
为了解决这些问题，[75] 引入了 NLP 基准，[36] 为原型网络提供了交互式调试方法。

5.B 对抗性训练（Intrinsic）

[88] 发现，经过对抗性训练的分类器在许多可解释性相关的属性方面表现出改进，包括神经元的特征合成（参见第 III-C 节）。研究还发现，这些经过对抗性训练的网络可以为迁移学习 [253]、图像合成 [49]、[51]、[256] 以及人类视觉系统建模 [89] 提供更好的表示。不幸的是，鲁棒性可能与准确性不一致 [282]，这可能是由于数据集中的预测性但 “非鲁棒” 特征 [135]。这使得我们认识到，对抗性示例可以用来帮助理解网络检测和表示的有用或可利用的特征类型 [49]、[51]。

5.C 解纠缠（Intrinsic）

在通过网络的过程中，每一层的激活可以表示为隐空间中的向量。

解纠缠 [30] 的目标是通过鼓励神经元和一组可解释概念之间建立更加双射的关系，确保通过研究隐向量更容易地识别特征。另请参见第 3-F 节对多语义神经元的讨论。
通过鼓励神经元与一组预先确定的概念保持一致，可以以监督的方式完成解缠结。
[56] 通过应用白化操作对特征去相关，然后进行学习的正交变换以产生可以监督的隐激活。
类似地，[152]、[183]、[184] 使用内部监督来训练“瓶颈”层来分离特征，[272] 使用内部监督来学习稀疏、可解释的嵌入。
然而，[190] 讨论了这些模型的挑战，特别是“泄漏”问题，其中不需要的信息仍然通过了瓶颈。

解纠缠也可以以无人监督的方式完成。

这方面的一个部分例子是 dropout [269]，它阻止了神经元之间的共同适应，尽管以增加冗余为代价。
其他工作探索了使用层中神经元之间的侧向抑制来使它们竞争激活 [46]、[85]、[157]、[272]，设计一种基于“胶囊”的架构，其中一组神经元具有激活，每个都代表一个特定的特征 [73]，[249]，将激活与数据变化的分量对齐 [161]，使用互信息损失 [55]，使用基于类间激活熵的损失 [317]，正则化对应于层的 Hessian 网络输出 [231]，从相同的隐变量中训练分类器和自动编码器 [259]，或者学习特征上的掩码 [121]。
其他工作特别关注自动编码器，训练它们拥有更多独立激活的神经元 [41]、[54]、[126]、[148]、[158]。
然而，在对这些方法的调查中 [181]、[182] 证明了在模型和数据上没有归纳偏差的情况下无监督解纠缠的不可能结果。

5.D 令牌（token）和注意力（Intrinsic and Post Hoc）

Transformer 架构通过以交替方式将令牌表示传递给注意力层和前馈层来处理数据。这些架构构建块为研究网络的内部表示提供了独特的机会。

首先，可以研究令牌。这可以通过直接解释转换器中的标记表示 [84]、[108]、[109]、[169]、[210]、[225] 或分析全连接层如何处理它们 [110]、[210] 来完成。

其次，key-query 产品是在关注层内部计算的，并表示每个内部标记对其他标记的关注程度。

研究令牌表示之间关系的概念与第 4-D 节中介绍的回路分析有相似之处。在他们的开创性工作中，[20] 表明，注意力对齐似乎显示了翻译的预期注意力模式。
最近的其他作品更系统地使用了这种方法[2]、[62]、[119]、[285]，包括用于有害偏见的研究[72]。
[240]引入了一个“ConceptTransformer”，其输出可以解释为用户定义概念的注意力图，就像概念瓶颈网络 [152] 一样。
[166]、[179]、[271]、[287] 提供了用于注意力归因视觉分析的交互式工具。
[52]、[84]、[225]扩展了这种方法，以实现跨多个层的多步骤归因的目标。
重要的是，对注意力的分析可能并不总是提出忠实的解释，并且过度依赖它们进行解释可能是危险的 [138]，[262]，[301]。
最后，Transformer 可能有许多琐碎的、可修剪的注意力头 [289]，这表明需要进一步谨慎，因为并非所有头都值得解释。

5.E 概念向量（Post Hoc）

虽然解缠结的目的是使概念与单个神经元保持一致，但分析概念向量的方法是同一问题的事后解决方案。在这里，目标是将隐空间中的方向与有意义的概念相关联。

有几项工作通过分析来自概念数据集 [100]、[146]、[185]、[186]、[238]、[324] 的图像引起的激活来做到这一点，包括明确把它用于调试的 [1]、[311]。
[259] 使用了一种对比方法。他们不是从概念开始，然后确定它们的方向，而是首先使用生成器和“层选择性”启发式确定方向，然后寻求对它们编码的内容进行事后解释。
[137]、[302] 采用了一种面向调试的方法，他们对分类器错误标记的数据示例的嵌入进行分类和聚类，包括由于统计偏差而导致的案例。这允许对模型中潜在地困难输入进行检测、解释和干预，以及识别代表性不足的数据子类别的方法。
不幸的是，对于这些方法来说，有证据表明网络学习表示的有用概念比其内部层可以线性独立表示的概念要多得多 [86]。激活空间中的单个方向可以对应于不相关的概念，具体取决于激活向量的大小 [32]。

5.F 探测（Post Hoc）

给定某种嵌入数据的方式，探测的目标是了解该嵌入是否捕获了某种类型的信息。

探测利用迁移学习来测试嵌入是否携带有关目标任务的信息。
探测的三个步骤是（1）获取一个数据集，其中包含捕获某些感兴趣的质量变化的示例，（2）嵌入示例，以及（3）使用这些嵌入训练模型，看看它是否可以学习感兴趣的质量。
可以使用任何模型的任何内部表示，这使得这是一种通用技术。
[28] 提供了一项探测工作的综述。
探测最简单的例子是使用无监督学习算法作为探测 [130]。
图像分类器的线性探针已经完成了额外的工作 [10]。
然而，探测最常在语言模型中完成 [6]、[63]、[91]、[117]、[153]、[168]、[170]、[177]、[199]、[217] ，[232]，[252]，[274]。
值得注意的是，[42] 使用了一种对比探测的形式来检测语言模型中的欺骗。
虽然用途广泛，但探测并不完善[17]。
一个问题是，探测器未能学会表示数据中所需的质量并不一定表明它没有得到表示。例如，这可能是探针参数化不足的情况。
另一方面，成功的探测并不一定意味着被探测的模型实际上使用了有关数据的信息。 [237] 证明了这一点，他主张在探测时使用严格的控制。在随后的论文中，[83] 旨在通过将探测与操纵数据的实验相结合来解决这个问题，以分析扰动对性能的因果影响。
另请参阅第 3-B 节中基于数据集的神经元表征方法。

5.G 表示比较（Post Hoc）

DNN 学习的一种间接表征表示的方法是估计其内部表示与另一个 DNN 的内部表示之间的相似性。

这很难量化，因为网络是高度非线性的，并且以复杂的方式表示概念，这些方式可能无法可靠地与激活空间中的神经元或方向对齐。
尽管如此，已经出现了一系列工作来通过各种线性和非线性方法来解决这个问题。
这些包括单神经元对齐 [113]、[172]、[173]、[276]、向量空间对齐 [294]、规范相关分析 [206]、奇异向量规范相关分析 [234]、中心核对齐 [ 154]，[215]，[235]，[275]，去混杂表示相似性 [66]，层重建 [176]，模型拼接 [21]，[64]，[194]，表示相似性分析 [195]，表示拓扑分歧 [22] 和探测 [93]。
这些方法可能有助于更好地基本了解网络学习哪些特征以及如何学习。
然而，不同的方法对于各层的相似程度常常存在分歧。
[76] 认为这些方法应该对影响功能行为的变化敏感，而对不影响功能行为的变化保持不变。他们引入了评估相似性度量的基准，并表明两种最常见的方法（典型相关分析和中心核对齐）在这些方面都失败了。

6. 讨论

可解释性与对抗性稳健性研究密切相关。这两个领域之间存在一些联系，包括非内部可解释性研究的一些结果。

(1) 更可解释的 DNN 对对抗来说更稳健 [141]。许多工作通过正则化网络的输入梯度来提高鲁棒性来研究这种联系 [37]、[80]、[90]、[97]、[120]、[144]、[147]、[192]、 [218]、[241]、[258]。除此之外，[82] 使用侧向抑制，[281] 使用二阶优化技术，每种技术都提高了可解释性和鲁棒性。此外，在卷积神经网络中模拟人类视觉系统的特性可以提高鲁棒性 [70]。
(2) 更稳健的网络更容易解释 [19]，[86]，[88]，[228]。对抗性训练的网络还可以为迁移学习 [7]、[253]、图像生成 [49]、[51]、[256]、人类视觉系统建模 [89] 和拟合符号图 [239] 产生更好的表示。
(3) 可解释性工具可用于设计对抗。这样做是严格证明可解释性工具的有用性的一种方法。这是由 [47]、[49]、[51]、[125]、[208] 完成的，并已用于更有效地生成对抗性训练数据 [327]。作为调试模型的一种手段，[132] 主张使用“宽松”的对抗性训练，它可以依靠可解释性技术来发现可能导致模型失败的输入或隐变量的分布。
(4) 对抗性例子可以是可解释性工具[49]、[51]、[78]、[135]、[279]，包括对抗性木马检测方法[104]、[116]、[180]、[292]、[ 293]，[322]。

可解释性还与持续学习、模块化、网络压缩以及与人类视觉系统的相似性密切相关。

涉及参数隔离和/或正则化的持续学习方法使神经元和权重在本质上更具可解释性。
2-A 和 3-A 节讨论了这些方法如何提出对权重和/或神经元的内在解释。因此，它们允许每个权重或神经元被理解为在一组任务定义的模块中具有部分成员资格。
除此之外，许多其他内在模块化技术是第 4-B 节的重点。正如第 4-C 节中所讨论的，网络也可以通过将它们划分为模块并分别研究每个模块来解释。
此外，如第 3-G 节中所讨论的，“琐碎”神经元可以包括可解释为模块的冗余神经元组。具有琐碎神经元的网络是可压缩的，压缩可以指导解释，解释可以指导压缩，如第 3-G 节中所讨论的。
最后，构建更类似于人类视觉系统的网络，包括使用表示易于描述的模式的卷积滤波器，也可以提高鲁棒性 [70]。

可解释性技术应该扩展到大型模型。小型网络和简单任务（例如 MNIST 分类 [165]）通常用于测试方法。然而，执行简单任务的简单网络只能部署在有限数量的现实世界设置中，并且有时很容易用其他本质上可解释的非网络模型替换。因此，一项技术的可扩展性与其实用性密切相关。例如，胶囊网络 [249] 在 MNIST 分类上取得了令人印象深刻的性能，并且具有卷积网络所缺乏的内在可解释性。然而，它们的参数效率要低得多，并且迄今为止尚未达到超越 CIFAR-10 [156] 水平的竞争性能，更不用说 ImageNet [245] 水平 [229]。像这样的方法可能会为未来的工作提供极好的灵感，但如果它们不能适用于大型模型，那么它们对于实际可解释性的直接价值将是有限的。我们敦促研究人员详细说明计算要求并测试其方法的可扩展性。

可解释性技术产生假设，而不是结论。仅仅提出看似合理的解释是不够的。评估有效性和不确定性是关键。 将假设误认为结论是可解释性文献中的一个普遍问题 [178]、[200]、[243]。考虑解释特定神经元的目标。有几种方法可以做到这一点（第 3 节）。然而，如果这种方法表明神经元具有特定的作用，这并不能保证这种解释是完整的并忠实于其真实功能。通常，看似非常合理的解释不会通过简单的合理性检查 [4]，或者很容易找到 [35]、[128]、[221] 的反例。可解释性方面的大量工作都未能超越简单地检查方法的结果。需要更多的关注。可解释性技术只能在帮助用户做出可测试的预测的范围内进行评估。只有当这些预测得到验证时，它们才能真正有用。并且解释的有效性仅在进行验证测试的数据分布上被授予——推断解释是有风险的（例如，[35]）。开发评估可解释性技术的具体方法将在稍后第 7 节讨论。

除了有效性之外，量化不确定性也很重要。理想情况下，解释应与置信度估计配对。如何衡量确定性取决于现有的方法，但已经使用了一些方法，例如监督解释（例如[123]）、进行多次试验（例如[221]）、与随机基线比较（例如[127]），[237]），与其他简单方法的比较 [4]，或搜索解释失败的案例（例如，[25]、[35]、[128]）。

择优挑选（Cherry-picking）是有害且普遍的。方法的评估不应专注于最佳情况的性能。 由于解释 DNN 的固有困难，文献中的许多作品展示了其方法的单独且非常成功的应用，通常是在玩具模型（toy models，可以简化的模型）中。这对于提供说明性示例或具体见解很有用。但对可解释性技术的评估不应偏向于其最佳情况的表现。这样做的一个危险可能是高估了技术的价值。事实上，一些工作发现某些方法仅在一小部分示例上表现良好（例如，[25]、[35]、[45]、[48]、[85]、[127]、[181] ]、[182]、[196]、[197]、[226]、[289]）。

择优挑选的另一个危害可能来自于无法解释复杂子过程的方法的可解释性进展的偏差。有些方法比其他方法更适合这一点。例如，将特征的表示归因于神经元的线性组合比将其归因于单个神经元严格来说更为普遍。 DNN 中的某些特征或计算可能比其他特征或计算更容易被人类理解，因此仅用于解释简单子过程的方法可能不适用于研究一般网络。

作品应该评估他们的技术在随机或对抗性采样任务中的表现。例如，关于表征神经回路的工作不应仅关注于呈现特别易于解释的回路的结果。它还应该旨在解释回路内部随机或对抗性采样神经元的作用，或找到可以解释网络如何计算随机或对抗性选择的子任务的回路。如果这样的方法仅在有限的情况下成功，则应明确说明。

理想情况下，可解释性的进步既不应该降低总体性能，也不应该增加某些风险能力。 一方面，可解释的人工智能技术应该保持竞争力。任务性能下降、偏差增加、计算需求更高或在现代深度学习框架中难以使用等代价的避免是关键。诸如此类的竞争缺陷可能会导致“价值侵蚀” [67]，即不采用更安全、更可解释的人工智能实践，而是采用更具竞争力的方法。

另一方面，可解释性研究带来的某些类型的性能改进也可能是不可取的。如果可解释性工作使安全相关的监督变得更加困难，那么它们也不应该导致能力的增强。例如，如果管理不当，通用智能的进步可能会导致严重危害[39]、[59]、[209]、[227]、[246]、[277]。一种危险的可能性是，可解释性是否是通用能力增强的副产品。例如，大型语言模型通常可以被提示“解释”它们的推理，但这只是因为它们具有先进的、广泛的领域能力。实现这一点的另一种方式是，可解释性是否可以通过基本模型洞察力带来能力的进步。从规避先进人工智能系统风险的角度来看，这两者都不是理想的。专注于改进可解释性技术而不相应提高能力，这最有可能阻止人工智能的进步超过我们有效监督的能力。从这个角度来看，我们认为未来可解释性工作的主要目标应该是提高安全性而不是能力。

7. 未来的工作

应该更好地理解可解释性、模块化、对抗鲁棒性、持续学习、网络压缩以及与人类视觉系统的相似性之间的联系。 现代可解释性工作最引人注目的发现之一是它与深度学习中其他范式的联系。这项调查的中心目标之一是强调这些联系（见第 6 节）。目前，可解释性与这些其他领域之间的文献交叉点相对较少。展望未来，对可解释性的跨学科理解可能会带来跨越多个领域的见解和进步。

规模化需要有效的人力监督。通过最先进的可解释性技术获得的许多解释都涉及一定程度的人类实验和循环创造力。在某些情况下，需要专家花费大量时间来解释执行非常简单任务的模型或子网络（例如，[45]、[210]）。但如果目标是彻底了解大型系统，人类的参与就必须高效。理想情况下，人类应该用于筛选解释而不是生成解释。解决方案可以包括使用主动学习（例如，[103]）、弱监督（例如，[34]）、使用在人类标记数据上训练的代理模型的隐式监督（例如，[49]、[51]）和/或对代理进行严格的统计分析（例如，[127]、[326]），以减少人类参与的需要。为此，获得具有丰富标记样本的额外高质量数据集（例如[25]）可能很有价值。

专注于发现新颖的行为——而不仅仅是分析它们。 许多现有方法只能很好地研究模型在有限环境中的行为。例如，任何依赖于数据集的可解释性方法都仅限于描述模型在该数据分布上的行为。但理想情况下，方法不应局限于给定的数据集或在故障模式已知时研究潜在的故障。例如，一个重要的实际问题是检测攻击性或有害言论，但没有数据集包含所有类型攻击性句子的示例，并且让人类手动指定一个函数来完美识别攻击性和无攻击性语音是很棘手的。然而，当人类看到攻击性内容时，通常可以轻松识别出来。

这凸显了对允许用户发现可能不在典型数据集中或容易提前想到的故障的技术的需求。与测试性能等其他评估模型的方法相比，这代表了可解释性方法的独特潜在优势之一。为此，一些生成子网络抽象理解的内部可解释性方法已被证明是有用的（例如，[68]、[125]、[197]、[208]、[257]。然而，基于合成对抗性示例的方法可以提供一种特别通用的方法来发现新的故障模式（例如，[49]、[51]、[116]、[292]）。

可解释性工作可能有助于更好地理解表示的收敛学习。 一些工作假设相似的特征或概念往往出现在不同的模型实例或架构中[221]、[300]。更好地理解系统学习相似概念的程度将导致对它们的表示以及我们应该期望它们如何解释有更基本的理解。如果这些假设成立，深入解释一个模型更有可能产生可推广的见解。测量神经网络之间表征相似性的持续工作（参见第 5-G 节）可能非常适合在实现这一目标方面取得进展。

“机制解释性”和“显微镜 AI”是雄心勃勃但可能非常有价值的目标。 可解释性研究的一个方向是机制可解释性，旨在获得对 DNN 计算的算法级别的理解。这可以通过将 DNN 转换为某种形式的人类可理解的伪代码来操作 [95]。这与显微镜 AI 的目标有关，显微镜 AI 是指通过彻底解释高性能 AI 系统来获得领域洞察力 [133]。这些功能将具有优势，包括预测反事实行为和逆向工程模型。到目前为止，通过使用小模型、简单任务和人类专家的细致努力，实现这一目标的尝试数量有限，并取得了一些成功 [45]、[85]、[210]、[286]。通过使用程序综合和分析技术来自动生成和验证假设，未来这一方向的工作可能会受益。

检测欺骗并获取潜在知识对于先进系统可能很有价值。 尽管系统有能力传递真实且完整的信息，但如果它沿某些通信渠道（例如，向人类）传递虚假或不完整的信息，则该系统具有欺骗性。相关地，潜在知识 [60] 是系统“知道”但没有表现出知道的迹象。例如，在某些情况下，语言模型可能会胡言乱语地提出常见的误解，例如“ 蝙蝠是瞎的”，尽管 “知道” 这是错误的。像这样的隐藏知识可能会导致欺骗行为。作为一个例子，[60] 讨论了一个系统，该系统故意和欺骗性地操纵人类看到的观察结果来监控它。在这种情况下，关于观察的真实性质的知识是潜在的。

能够表征欺骗行为和潜在知识，通过让人类知道模型何时可能不值得信任，对更安全的高度智能人工智能具有明显的影响。但这可能很困难，原因有几个，包括（1）根据定义，欺骗行为和潜在知识不能通过单独观察模型的部署行为来确定，（2）人类使用的特征/概念与模型之间的任何不匹配都需要一种本体（ontology）翻译方法，（3）目前还不清楚人类能够在多大程度上解释在某些任务上超人的人工智能系统。然而，内部可解释性方法通过仔细检查模型计算图中可能处理潜在知识的部分，为这些挑战提供了一种独特的方法。探索已显示出这方面的潜力[42]。

需要严格的基准。理想情况下，他们应该衡量方法对于产生与工程师相关的有用见解的帮助程度。这些可能涉及重新发现网络中已知的缺陷。 DNN 的可解释性工作是通过多种技术完成的，但并非所有技术都有相同的最终目标。例如，一些方法旨在解释 DNN 如何处理单个输入，而另一些方法则旨在对其进行更普遍的理解。由于这些原因，加上技术的快速发展，广泛接受的可解释性基准尚不存在。这可能是进一步进展的限制。基准测试成功推动巨大进步的一个众所周知的例子是 ImageNet [245] 如何激发监督图像分类的工作。

对可解释性方法的最弱评估形式是其仅建议特定特征的能力。例如，如果使用特征合成来可视化神经元，那么让人类查看可视化并说 “这看起来像 X” 是得出神经元是 X 检测器的令人担忧的基础。这会将假设与结论混为一谈。一种更严格的评估方法是做出简单的可测试预测并验证它。例如，假设的 X 检测器对于包含 X 的输入比不包含 X 的输入更可靠地激活。另一个例子是，使用某种方法是否可以提高可解释性的定量代理（例如，[127]）。这种方法很有价值，但仍然不理想。

可解释性工具的最终目标应该是提供有效且有用的见解，因此评估它们的方法应该衡量它们指导人类使用模型做有用事情的能力。换句话说，可解释性工具应该对工程师有用，特别是那些想要诊断和调试模型的工程师。一些工作已经在这方面取得了进展。例子包括设计新颖的对抗（例如，[42]、[47]、[49]、[51]、[107]、[125]、[135]、[137]、[164]、[208]、[302 ]，[327]），手动编辑网络以重新调整其用途或引起可预测的行为变化（例如，[27]，[68]，[111]，[197]，[303]），或对使用可解释性技术的系统进行逆向工程（例如，[45]、[84]、[210]）。

[134] 建议的一种易于处理的基准测试方法是通过可解释性技术帮助人类发现对抗在模型中植入的缺陷的能力来评估可解释性技术。通过技术如何帮助人类重新发现这些缺陷来判断技术，将比临时评估方法更直接地衡量其实际有用性。特征归因方法的相关技术已被争论 [129] 并使用 [5]、[23]、[74]，但尚未普及。在知名场所或平台举办的植入和重新发现缺陷的竞赛（例如 [193]）可能是推动技术和基准测试进步的有用方法。

组合技术可能会带来更好的结果。 可解释性技术通常可以组合起来。例如，几乎任何内在方法都可以与几乎任何事后方法一起使用。然而，可解释性方面的绝大多数工作都集中在单独研究它们。研究方法之间的相互作用相对尚未被探索。一些作品已经确定了有用的协同作用（例如，[88]、[303]），但据我们所知，没有任何作品致力于彻底研究不同方法之间的相互作用。我们希望新的基线和对严格可解释系统的需求增加将进一步激励以结果为导向的可解释性工作。

考虑一个例子。 ImageNet 基准测试非常有效地提升了 2010 年代图像分类性能的最新水平。在此期间，分类性能的改进不是由于单一技术，而是突破性的组合 - 批量归一化、残差连接、初始模块、更深层次的架构等。同样，我们不应该期望在不结合方法的情况下最好地提高与可解释性相关的能力。

应用可解释性技术进行野外调试和消除偏差。 努力应用可解释性工具来发现现实世界模型的问题（例如 [61]）既有助于发现后续应用中的问题，也有助于测试方法以了解哪些方法可能最实际有用。在此过程中，研究人员应对机器学习中使用的道德框架持批评态度，特别是它们如何偏离人们的利益，特别是弱势群体，他们可能是受这些技术影响最严重的人[31]。

扩大可解释性领域。 人工智能系统的许多道德或安全问题可以通过工具来减少，以更好地了解模型如何做出决策以及它们如何可能失败。因此，我们认为，可解释性不应被视为单独的兴趣，而应被视为在重要环境中部署的系统的要求。如上所述，一条引人注目的前进道路是通过基准测试和竞争。有一些乐观的理由。该领域正在日趋成熟，许多技术现已证明其在实际洞察和调试方面的价值。尽管它们是我们这里的重点，但我们强调，内部可解释性方法并不是提高人工智能安全性的唯一有价值的方法。

向工程学的范式转变。 目前，可解释性研究几乎没有产生在现实世界中有用的工具和见解。能够严格研究 DNN 学习到的解决方案似乎具有使 DNN 更安全的重要潜力，但它们目前很少用于评估或工程应用。如上所述，文献中的作品经常将假设视为结论 [178]、[200]、[243]，而未能将方法与有用的应用联系起来。一定数量的探索性工作对于产生见解显然很有价值，并且应该继续下去。但该领域尚未产生许多在实际应用中具有竞争力的方法。可解释性工作的动机是 “多样且不一致的” [178]，而正如文献中所使用的，该术语本身 “在应用于算法时缺乏精确的含义” [155]。我们与 [79]、[243]、[200] 和 [155] 一起呼吁在有意义的应用程序中建立可解释性的基础。如果可解释性工具最终是为了帮助工程师诊断和调试 DNN，那么该领域应该基于此来设计和评估方法。

我们认为，展望未来，该领域最紧迫的变化是专注于生产对工程师有用的工具。为了更好地实现人性化人工智能的可解释性工作的潜力，一个更加深思熟虑、跨学科和以应用为中心的领域将非常重要。进行更多强调诊断、调试、对手、基准测试以及利用不同可解释性工具的有用组合的研究将是有价值的。

参考

Räuker T, Ho A, Casper S, et al. Toward transparent ai: A survey on interpreting the inner structures of deep neural networks[C]//2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML). IEEE, 2023: 464-483.

S. 总结

S.1 主要思想

解释 AI 有助于构建可信 AI。尤其是专注于解释 DNN 内部组件的 “内部” 可解释性技术，非常适合发展机制理解、指导手动修改和逆向工程。

本文重点关注内部可解释性，主要贡献有：

引入了一种分类法（Taxonomy），根据方法有助于解释网络的部分（权重、神经元、子网络或隐表示）以及它们是在训练期间（内在，intrinsic，涉及模型训练以使其更易于研究或具有自然的解释）还是在训练后（事后，post hoc，在模型训练后对其进行解释）实施，对方法进行分类
最先调查可解释性与对抗鲁棒性、持续学习、模块化、网络压缩和人类视觉系统之间的联系
讨论了关键挑战，并认为可解释性研究的现状基本上是没有成效的
强调未来工作的重要性，强调诊断、调试、对抗和基准测试，以使可解释性工具对实际应用中的工程师更有用