[论文解读]A Survey of Methods for Explaining Black Box Models

最新推荐文章于 2024-06-17 17:10:15 发布

年糕糕糕

最新推荐文章于 2024-06-17 17:10:15 发布

阅读量1.7k

点赞数 2

分类专栏：论文解读

本文链接：https://blog.csdn.net/qq_33935895/article/details/109205436

版权

论文解读专栏收录该内容

39 篇文章

订阅专栏

A Survey of Methods for Explaining Black Box Models

简介

论文标题

A Survey of Methods for Explaining Black Box Models
黑箱模型解释方法综述
2018

摘要

近年来，许多精确的决策支持系统被构建成黑匣子，即对用户隐藏其内部逻辑的系统。这种缺乏解释既是一个实际问题，也是一个伦理问题。文献报道了许多旨在克服这一关键弱点的方法，有时是以牺牲准确性来换取可解释性为代价的。可以使用黑盒决策系统的应用程序多种多样，每种方法通常都是为了提供特定问题的解决方案而开发的，因此，它显式或隐式地描述了自己对可解释性和解释性的定义。本文的目的是对文献中涉及的关于解释概念和黑盒系统类型的主要问题进行分类。给出问题定义、黑匣子类型和所需的解释，这项调查应该会帮助研究人员发现这些建议对自己的工作更有用。提出的打开黑盒模型的方法分类对于正确看待许多研究的开放问题应该也是有用的。

略过了很多部分,重点关注NNs与DNN相关工作

可解释、可解释和可理解的模型

可解释性的维度

全局和局部可解释性：模型可能是完全可解释的，也就是说，我们能够理解模型的整个逻辑，并遵循导致所有不同可能结果的整个推理。在这种情况下，我们谈论的是全球可解释性。取而代之的是，我们用当地的可解释性来表明这样一种情况：在这种情况下，只可能理解特定决策的原因：只有单一的预测/决策是可解释的。

时间限制：一个重要的方面是用户有空或被允许花在理解解释上的时间。用户时间可用性与必须使用预测模型的场景严格相关。因此，在用户需要快速做出决定(例如，灾难迫在眉睫)的某些情况下，最好有简单易懂的解释。而在决策时间不是约束的情况下(例如，在发放贷款的过程中)，人们可能更喜欢更复杂和详尽的解释。

用户专业知识的性质：预测模型的用户在任务中可能有不同的背景知识和经验：决策者、科学家、法规遵从性和安全工程师、数据科学家等等。了解任务中的用户体验是感知模型可解释性的一个关键方面。领域专家可能更喜欢更大、更复杂的模型，而不是更小、有时更不透明的模型。

对可解释模型的渴求

可解释性：模型和/或其预测在多大程度上是人类可以理解的。讨论最多的是如何衡量可解释性。在参考文献[32]中，用于测量可解释性的组件是根据模型大小的预测模型的复杂性。根据文献，我们也称可解释性为可理解性。
准确性：模型准确预测不可见实例的程度。模型的精确度可以使用诸如精确度得分、F1得分[118]等评估指标来衡量。产生一个可解释的模型，保持有竞争力的准确性水平，是文献中最常见的目标。
保真度：模型能够准确模拟黑盒预报器的程度。保真度捕捉到了一个可解释的模型在模仿黑匣子的行为时有多好。与精确度类似，保真度是根据精确度分数、F1分数等来衡量的，但与黑匣子的结果有关。

打开黑匣子问题

Model Explanation

黑盒解释问题在于通过一个可解释的透明模型提供对黑盒模型的全局解释。这个模型应该既能够模仿黑匣子的行为，也应该是人类可以理解的。换句话说，近似黑盒的可解释模型必须是全局可解释的

Outcome Explanation

给定一个黑盒和一个输入实例，结果解释问题在于为该实例上的黑盒的结果提供解释。不需要解释黑盒背后的整个逻辑，只需要解释对特定输入实例进行预测的原因。

打开黑匣子问题分类法。用于理解黑盒如何工作的打开黑盒问题可以与解释决策系统如何返回特定结果的问题(黑盒解释)和直接设计解决相同分类问题的透明分类器的问题(透明盒设计)分开。此外，黑盒解释问题还可以进一步分为当解释涉及模糊分类器的整个逻辑时的模型解释，当目标是理解关于给定对象的决策的原因时的结果解释，以及当目标理解黑盒在内部如何行为改变输入时的模型检查。

Model Inspection Problem

模型检查问题在于提供用于理解黑盒模型或其预测的某些特定属性的表示(视觉或文本)。感兴趣的示例属性包括对属性变化的敏感性，以及对负责特定决策的黑盒组件(例如，DNN中的神经元)的识别。

Transparent Box Design Problem

透明盒设计问题在于直接提供一个局部或全局可解释的模型。

问题数学定义略

问题与基于解释器的分类

在这项调查中，我们建议根据所面对的问题类型和打开黑匣子所采用的解释器进行分类。特别是，在我们的分类中，我们考虑了以下特点：

面临的问题(根据第4节的定义)；
采用哪种类型的解说器打开黑匣子；；
解释器能够打开的黑盒模型
用作黑盒模型的输入的数据类型

在每个部分中，我们将所有具有相同问题定义的论文分组在一起，而小节则对应于所采用的不同解决方案。反过来，在每个小节中，我们对试图解释同一类型黑匣子的论文进行分组。最后，我们将黑盒使用的数据类型保留为为分析的每个工作指定的特性。

关于可解释解释器的类型，我们在小节中进一步对各种方法进行分类

诊断树(DT)或单一诊断树。人们普遍认为，决策树是一种更易于解释和理解的模型，主要用于全局解释，也用于局部解释。事实上，一种非常普遍的打开黑匣子的技术是所谓的“单树近似”。
判决规则(DR)或基于规则的解释器。决策规则是人类更容易理解的技术之一。存在各种类型的规则(如第3.3节所示)。它们用于解释模型、结果，也用于透明设计。我们注意到存在将树转换为一组规则的技术。
功能重要性(FI)。作为全局或局部解释的非常简单但有效的解决方案在于返回黑盒使用的特征的权重和大小作为解释。通常，通过使用用作可解释模型的线性模型的系数值来提供特征重要性。
显著遮罩(SM)。指出导致某种结果的原因，特别是在处理图像或文本时，一种有效的方法在于使用“面具”，直观地突出所分析记录的决定性方面。它们通常用于解释深度神经网络，并且可以被视为FI的可视化表示。
敏感性分析(SA)。它包括评估黑匣子相对于其输入中不同不确定性来源的结果的不确定性。它通常用于开发模型检查的可视化工具。
部分依赖图(PDP)。这些曲线图有助于可视化和理解黑盒结果与简化特征空间中的输入之间的关系。
原型选择(PS)。这个解释器包括连同结果一起返回一个与分类记录非常相似的示例，以明确返回预测的标准。原型是代表一组相似实例的对象，并且是观察点的一部分，或者它是总结具有相似特征的点的子集的工件。
激活最大化(AM)。对神经网络和深度神经网络的检查也可以通过观察哪些是相对于特定输入记录激活的基本神经元来实现，即，寻找使特定层中的特定神经元的激活最大化的输入模式。AM还可以被视为最大化输出激活的输入图像的生成(也称为对抗性生成)。

在下面，我们列出了所有在评论的论文中打开的黑匣子。

神经网络(NN)。受生物神经网络的启发，人工神经网络是由一组相互连接的神经元组成的。神经元之间的每条链路都可以传递信号。接收神经元可以处理信号，然后传输到与其相连的下游神经元。通常情况下，神经元是按层组织的。不同的层对其输入执行不同的转换。信号从输入层传输到输出层，多次通过中间的隐藏层。神经元和连接的权重也可能随着学习的进行而变化，这可能会增加或减少信号的强度。
树木集成(TE)。集成方法组合一个以上的学习算法，以提高它们组合的任何单个学习算法的预测能力。随机森林、强化树木和树木套袋都是树木组合的例子。它们组合不同决策树的预测，每个决策树在输入数据的独立子集(相对于特征和记录)上训练。
支持向量机(SVM)。支持向量机利用训练数据的子集，称为支持向量，来表示决策边界。支持向量机是一种分类器，它使用一组可用的不同核来搜索决策边界具有最大边界的超平面。
深度神经网络(DNN)。DNN是一种可以对具有多个隐含层的复杂非线性关系进行建模的神经网络。DNN体系结构由表示为基本单元的分层组合的模型组成。在DNN中，数据通常从输入流向输出层，而不会循环返回。一种广泛使用的DNN是递归神经网络(RNNs)。RNN的一个特殊组件是长短期记忆(LSTM)节点，它对于语言建模特别有效。然而，在图像处理中，通常使用卷积神经网络(CNNs)。我们区分NN和DNN仅仅是因为DNN可以比NN更深，并且可以使用更复杂的节点架构(例如，RNN、CNN)。
非线性模型(NLM)。用于对观测值进行建模的函数是模型参数的非线性组合，并且依赖于一个或多个模式自变量。

最近，解释黑匣子的不可知论方法正在发展。不可知性解释器(AGN)是一种可理解的预测器，它与特定类型的黑盒、解释或数据类型无关。换句话说，从理论上讲，不可知性预测者可以使用一棵树或一组规则来无关紧要地解释神经网络或树集。由于文献中只有几种方法将自己描述为完全不可知性，并且由于主要任务是解释黑盒预测器，在本文中(如果没有特别指定的话)使用术语不可知性，我们仅指为解释任何类型的黑盒而定义的方法，即黑盒不可知性。用作本次调查分析的黑匣子输入的数据类型如下：

用作本次调查分析的黑匣子输入的数据类型如下

表格(TAB)。对于表格数据，我们表示任何经典数据集，其中每个记录共享相同的特征集，并且每个特征要么是数值的，要么是分类的，要么是布尔型的。
图像(Img)。许多黑盒都可以处理带标签的图像。这些图像可以由黑盒按原样处理，或者可以进行预处理(例如，重新调整大小以具有所有相同的尺寸)。
文本(TXT)。由于语言建模与图像识别一起是当今评估最广泛的任务之一，文本的标记数据集通常用于垃圾邮件检测或主题分类等任务。

表2、表3、表4、表5列出了打开和解释黑盒的方法，并总结了到目前为止分别为四个公认的问题模型解释、结果解释、模型检查和透明盒设计中的每一个列出的各种基本特征和特征。此外，它们还提供了我们认为可能对读者有用的附加信息。列Examples、Code、 Dataset分别表示论文中是否显示了任何类型的解释示例，以及实验中使用的源代码和数据集是否公开。下一节将讨论常规列和随机列。

解决模型解释问题

解决结果解释问题

在本节中，我们回顾解决结果解释问题的方法(参见4.1节)。这些方法提供了一个本地可解释的模型，该模型能够以人类可以理解的方式解释特定实例或记录的黑匣子预测。这类使用局部观点进行预测的方法正成为近年来研究最多的一类方法。第7.1节描述了使用深度神经网络(DNNS)提供需要预测的记录的显著部分的方法，而第7.2节分析了能够为任何类型的黑盒提供本地解释的方法。表3对这些作品进行了总结和分类。

基于显著性掩码的深度神经网络解释

在下面的工作中，打开的黑盒B是DNN，并且通过使用显著掩码(SM)作为可理解的局部预测因子C1(即，主要负责预测的原始记录的子集)来提供解释。例如，作为显著掩模，我们可以考虑图像或文本中的句子部分。显著图像汇总了DNN查看图像以识别其预测的位置。用于提取局部解释ε列表的函数f总是不能一概而论，通常与特定类型的网络(即卷积、递归等)严格捆绑在一起。我们指出，本节中描述的一些论文也可以归类为解决模型检查问题的方法，因此在第8节中出现，反之亦然。另一个值得强调的方面是显著遮罩和功能重要性之间的细微差别。实际上，可以将它们视为构建相同解释的两种不同方式：在这两种情况下，都提供了表示要素/区域重要性的值。

参考文献[134]引入了基于注意力的模型f，该模型自动识别图像的内容。黑盒是由用于特征提取的卷积NN(CNN)和包含长期短期记忆(LSTM)的递归NN(RNN)的组合组成的神经网络，节点通过为每次迭代生成单个单词来产生图像字幕。通过对标题中每个单词的注意力(图像区域，见图13(左))的可视化来提供预测的解释ε。Fong等人也得到了类似的结果。在参考文献[30]中。在这项工作中，作者提出了一个解释类元预测的框架。在他们看来，解释εl，因此是一个元预测器，是预测黑盒b对某些输入的响应的规则。此外，他们使用显著图作为黑盒的解释，以突出显示图像的显著部分(参见图13(右))。

类似地，另一组作品制作了将网络激活融入其可视化的显著遮罩。这种方法称为类激活映射(CAM)。在参考文献[139]中，使用CNN(黑盒b)中的全局平均合并来生成CAM。特定结果标签的C A M指示标识该标签的区别性活动区域。引用[106]定义了它的松弛概括Grad-CAM，它可视化了后期层的激活和特定于标签的权重(或引用[139]的梯度)的线性组合。所有这些方法调用不同版本的反向传播和/或激活，这导致对图像显著性的审美愉悦的启发式解释。他们的解决方案不是黑盒不可知的，仅限于NN，但它需要特定的架构修改[139]或访问中间层[106]。然而，在参考文献[109]中，我提出了一种用于可视化显著掩码ε的方法，该方法专用于该方法专用于cnn黑盒b。

另一组作品基于显著掩码εl和使用涉及从输出到输入层的反向传播的技术f来进行解释。这种技术被称为逐层相关传播(LRP)，包括为每一层分配相关性分数，向后传播对特定图像的决策的影响直到输入级。因此，LRP也可以被视为获取特征重要性的一种方式，然后通过显著掩码进行可视化。利用该技术的第一种方法是文献[7]中描述的逐像素分解方法(PWD)。在这项工作中，显著遮罩称为热图。PWD被用来解释非线性分类器，特别是神经网络。使用(视觉)字特征的包将输入图像编码在F中，并且每个像素的贡献被显示为热图，该热图显示黑盒B的焦点以进行特定决策。在文献[113]中，专门采用LRP对训练好的DNN进行处理，以对EEG分析数据进行分类。LRP的一种发展是参考文献[78]中说明的深度泰勒分解(DTD)方法。它试图克服函数方法，其中解释结果来自预测函数的局部分析[109]，并且其中解释是通过在该图中反向运行来获得的[7,137]。另外，DTD通过将网络决策组合成其输入元素的贡献(相关性传播)来解释多层神经网络。[103]文中对LRP提供的解释与更传统的反褶积和灵敏度分析进行了比较。遵循这一研究路线的另一项工作是参考文献[107]，它侧重于激活差异。值得一提的是，也许通向LRP的第一步是参考文献[64]，使用贡献传播(CP)方法f。与LRP类似，Contribute Propagation受参考文献[89]的启发，以这样的方式反向计算从输出级别到输入的贡献，即对于每个实例，CP解释记录的每个部分对该决策有多重要。

在文献[143]中，作者提出了一种解释DNN分类决策的概率方法f。该方法可用于为每个实例以及神经网络的每个节点生成显著图(从这个意义上讲，它解决了模型检查问题)。具体地说，显著遮罩突出显示输入的图像(即，特征)中构成支持(或反对)激活给定输出或内部节点的最多证据的部分。该方法使用一种技术，该技术利用网络节点上的激活最大化的差异分析，产生与输入特征的相对重要性相关的向量。

在使用CNN进行图像分类的情况下，可以用来解决结果解释问题和模型检验的另一种方法是VisualBackProp(VBP)[11]。Vbp可视化输入图像的哪些像素组ε_1对预测贡献最大。该方法利用了特征映射包含的与预测决策无关的信息越来越少的直觉，当移动到网络中时，预测决策的无关性越来越小。VBP最初是作为基于CNN的自动驾驶汽车转向系统的调试工具开发的。这使得VBP成为一个有价值的检查工具，在训练和推理过程中都可以很容易地使用。VBP获得了与LRP方法类似的可视化效果，同时实现了数量级的加速。

最后，关于文本，在参考文献[65]中，作者开发了一种方法f，该方法将原理合并为b的学习过程的一部分。原理是表示一段简短且连贯的文本(例如，短语)的简单的单词子集，仅此一项就必须足以预测原始文本。理性是地方解释者对ε土地提供的文本的突显性分析，即表明某种结果的原因。

解决模型检验问题

在本节中，我们将回顾面向模型检查问题的黑匣子的打开方法(参见4.1节)。给定解决分类问题的黑盒，检查问题在于提供用于理解黑盒模型如何工作或如何工作的表示或者为什么黑匣子比其他的更有可能返回某些预测。在参考文献[105]中，Seifet et al.。通过定义描述可视化目标和方法的分类方案，提供对DNN可视化的概述。他们发现，大多数论文都使用像素显示器来显示神经元的激活。与前面的部分一样，在下面的部分中，我们提出了一个基于技术类型f的分类，用于提供黑匣子工作方式的直观解释。本节中的大多数论文都试图考察NN和DNN。表4根据第5节中描述的特征对这些作品进行了总结和分类。

通过敏感性分析进行检查

在这一部分中，我们回顾了通过使用视觉表示的敏感度分析(SA)来实现函数f来解决黑盒检查问题的工作。灵敏度分析研究预报器输出中的不确定性与其输入中的不确定性之间的相关性[102]。以下方法主要用于表格数据集。我们强调，除了模型检验，敏感性分析也用于结果解释(例如，参考文献[78,103])。

“照亮”黑匣子的灵敏度分析最早是由Olden在文献[83]中提出的，其中描述了一种理解神经网络机理的可视化方法。特别是，他们建议通过灵敏度分析和神经解释图(NID)来评估轴突连接的重要性和输入变量的贡献，以消除不重要的连接并提高网络的可解释性。

在文献[8]中，作者提出了一种基于高斯过程分类(GDP)的过程，它允许通过一个解释向量来解释任何分类方法的决策。也就是说，过程f是黑盒不可知的。解释矢量SR被可视化以突出显示对特定实例的决策最有影响的特征。因此，我们正在处理结果解释εl的检查。

在参考文献[24]中，Datta等人。引入一套定量输入影响(QII)测度来捕捉输入对黑盒预报器输出的影响程度。这些措施为黑盒预报器的透明度报告提供了基础。在实践中，输出在于结果预测的特征重要性。

文献[115]研究了将DNN(黑盒B)的预测归因于输入特征的问题。确定了两个基本公理：敏感度和实现不变性。这些公理指导了一种称为积分梯度(IG)的属性方法f的设计，该方法不需要对原始网络进行修改。与以前的工作不同，该方法在不同类型的数据上进行了测试。

最后，Cortez在文献[18，19]中使用基于灵敏度分析的可视化技术f来解释黑盒b。灵敏度度量是作为预测的范围、梯度、方差计算的变量。然后，实现的可视化是特征重要性的条形图，以及绘制输入值(x轴)与(平均)结果响应的可变效果特征曲线(VEC)[20](参见图14(左))。

通过部分依赖进行检查

在本节中，我们将报告一组通过实现返回部分相关图(PDP)的函数f来解决模型检查问题的方法。F返回的部分依赖图r是用于在简化的特征空间中可视化响应变量和预测变量之间的关系的工具。本节中介绍的所有方法都是黑盒不可知的，并在表格数据集上进行了测试。

在参考文献[42]中，作者提出了一种任意特征集之间非加性交互的方法,该实现使用通过使用ANOV A统计方法生成的可变交互网络(VIN)可视化(一种计算部分依赖图的技术)。VIN允许在r中可视化功能的重要性及其相互依赖关系。

Goldstein等人的研究成果。在参考文献[35]中提供了一种技术f，该技术f扩展了名为个体条件期望(ICE)的经典PDP以可视化由黑盒b近似的模型，该黑盒b帮助可视化结果和某些特征之间的平均部分关系。冰图r通过突出拟合值的变化来改善PDP。

在参考文献[55]中，Krause等人。在黑盒B输入值上引入随机扰动，以通过使用PDPS f的视觉检查r来理解每个特征对预测的影响程度。Prospector的主要思想是通过一次改变一个变量来改变输入，从而观察输出是如何变化的。它提供了一种有效的方法来了解对于有价值的解释来说，哪些是最重要的特性(参见图14(右))。

在文献[2]中，作者提出了一种审计(即检查)黑盒预报器的方法f，研究了现有模型在多大程度上受益于数据中的特定特征。此方法不假定对模型行为有任何了解。具体地说，方法f关注间接影响，并通过模糊度与准确度图(特征被一个接一个地遮蔽)来可视化全局检查。

然而，黑盒B对其输入特征的依赖性通过文献[1]中提出的过程f相对量化，其中作者提出了一种基于输入属性正交投影(OPIA)的迭代过程。

通过激活最大化进行检查

我们在这一部分提出的工作通过实现函数f来解决黑盒检查问题，该函数使用激活最大化(AM)来寻找激活神经元和表征决策的实例(通常是图像)。我们注意到这些作品与第7.1节的作品有非常细微的差别。实际上，激活最大化还可以用来找出黑盒B为做出决定而聚焦的像素和区域(例如，参考文献[11,143])。

在参考文献[136]中，提出了两个工具，用于可视化和解释DNN，并用于理解DNN在中间层执行什么计算以及哪些神经元被激活。这些工具可视化INR在图像或视频处理过程中训练过的CNN的每一层的激活。此外，通过图像空间的正则化优化，将不同层次的特征可视化。Yosinski等人。发现，通过分析活动激活并观察它们在不同输入对应时的变化，有助于生成对DNNs行为的解释。

Shwartz-Ziv等人。在文献[108]中，通过强调每个随机梯度下降相位历元的经验误差最小化总是跟随在慢表示压缩之后，显示了DNNs r的信息平面可视化的有效性。这是一个非常有用的结果，可以用来解释DNNs。

与参考文献[137]中7.1中提出的作品类似，Zeiler等人。回溯网络计算，以确定哪些图像斑块负责特定的神经激活。Simonyan在文献[109]中证明了Zeiler方法可以解释为网络输入输出关系的灵敏度分析。

解释黑匣子的结果并不是参考文献[112]的主要主题，因为这篇论文更专注于证明同质而不复杂的CNN可以达到最先进的性能。然而，对CNN的中间步骤进行了分析，引入了一种新的“去卷积方法”的变体，用于在r中可视化b所学习的特征。

Nguyen等人在文献[80]中提出的方法f。为了理解CNN的内部工作原理，它是基于激活最大化的。实际上，其目的是通过合成高度激活神经元的输入图像，在视觉表示r中检索每个神经元已经学会检测的内容。本文提出了一种利用深度生成器网络(DGN)来提高定性激活最大化的方法。因此，DGN-AM生成的合成图像看起来几乎是真实的，并以一种可解释的方式揭示了每个神经元学习到的特征。

在文献[72]中，作者分析了DNN内部表示中包含的视觉信息，试图从编码重建输入图像。它们提供了能够反转图像表示的通用框架f。作为一个副作用，该方法允许显示CNN中的几个层保留有关图像的照片上的准确信息。此外，在参考文献[73]中，通过比较为理解“表示”而分析的各种方法族来扩展这项工作。激活最大化就是其中的一种方法。使用参考文献[72]重建的自然前图像的结果来评估该任务。此外，这些自然的前图像可以帮助研究哪些黑盒模型在用于训练它们的图像的域之外是有区分性的。在文献[72]中，使用基于正则化能量最小化的方法来提取自然预像。

最后值得一提的是，在文献[95]中发现，DNN的单个神经元单元在网络训练达到与强基线相同的性能水平后，可以单独进行情感分析。

通过树可视化进行检查

我们在这里给出了一个黑盒检查问题的解决方案，它采用了一种可以归类为不同于前面的方法f的方法。参考文献[119]示出了使用决策树提取DNN的视觉解释r。方法TreeView f的工作方式如下。在给定黑盒b作为DNN的情况下，它首先将特征空间分解为K个(用户定义的)重叠因子。然后，它为K个簇中的每一个建立元特征和预测簇标签的随机森林。最后，它显示了森林中的代理决策树作为黑盒的近似值。

解决透明盒的设计问题

在这一节中，我们回顾了设计用来解决分类问题的方法，这些方法使用一种本身可以局部或全局解释的透明方法，即解决透明盒设计问题(参见4.1节)。表5根据第5节描述的特点对这些论文进行了总结和分类。我们提到，在推荐系统的研究领域中，已经考虑了为输出可能值排名的模型设计解释的问题。对于这些方法的调查，我们建议读者参考参考文献[120]。

通过规则提取进行解释

在这一部分中，我们展示了通过基于规则的可理解预测器c来解决透明盒子设计问题的最相关的技术作品。在这些情况下，cд是一个可理解的全局预测器，它提供了导致任何可能决策的一整套规则：cεд提供了一个全局解释器д。本节中介绍的所有方法都适用于表格数据。

在文献[135]中，作者结合了关联分类和传统的基于规则分类的优点，提出了一种基于预测关联规则的分类方法CPAR(Class Based On Predictive Association Rules)。实际上，遵循FOIL[94]的基本思想，CPAR并不像在关联分类中那样生成大量候选集合，而是应用贪婪的方法直接从训练数据生成规则cд。

在文献[12]中，Wang和Rudin提出了一种方法f来提取落规则列表cд(见第3.3节)，而不是经典规则。下降规则列表提取方法f依赖于贝叶斯框架。

…

通过原型选择进行解释

在这一部分中，我们提出了一套解决透明盒子设计问题的方法f，它返回一个可理解的预测器c_д，并配备了一个人类可理解的全局。解释器函数εд。原型，也称为名称工件或原型，是代表一组相似实例的对象。原型可以是数据集D的训练集D={X，Y}的实例x部分。在观察点中仅具有原型对于可解释性是可取的，但是它也可以改善分类错误。作为原型的一个例子，我们可以考虑最小化与集合中所有其他点的距离和的记录(如在K-Medoid中)，或者考虑生成的记录对一组点的特征值进行平均(如在K-Medoid中)[118]。在每部作品中都指定了不同的定义和寻找原型的要求。

在参考文献[9]中，Bien et al.。设计了先寻找最佳原型的透明原型选择(PS)方法(提出了两种策略)，然后将D中的点赋给原型对应的标签。特别是，他们面临着识别手写数字的问题。在该方法中，每个实例可以由多个原型来描述，并且多个原型可以引用相同的标签(例如，数字0可以有多个原型，数字1可以有多个原型，等等)。可理解的预测器cд提供了全局解释，其中每个实例在其邻域中必须具有与其标签相对应的原型；任何实例在其邻域中都不应具有具有不同标签的原型，并且应当存在尽可能少的原型。

Kim等人。在文献[51，52]中，我提出了贝叶斯案例模型(BCM)的可理解预测器，它可以通过聚类数据来学习原型，也可以学习子空间。每个原型是给定集群的代表性样本，而子空间是识别集群原型的重要特征集。也就是说，全局解释器εд返回一组原型及其基本特性。该方法的可能缺点是参数数量高(例如，聚类数)和假设对每种类型的数据正确的各种类型的概率分布。参考文献[49]提出了利用人类交互来改进原型的BCM的扩展。最后，在参考文献[50]中，该方法被进一步扩展以包括批评，其中批评是不太适合模型的实例，即原型集群的反例部分。

关于原型和DNN，已经在第8.3节中分析的[72]提出了一种改变图像表示以仅使用来自原始图像和先前来自通用自然图像的信息的方法。这项任务主要涉及图像重建，而不是黑盒解释，但其目的是通过实现一种人工图像原型来理解DNNb与产生某种预测相关的示例。因此，值得强调的是，在通过伪像图像[48,125,131]理解DNN的表示方面有大量的工作。

我们结束这一节，介绍参考文献[30]如何处理DNN中的工件。通过扰动、删除、保存和类似的方法找到单个有代表性的原型有触发黑盒工件的风险。正如第8.4节所讨论的，NN和DNN已知会受到令人惊讶的人工产物的影响。例如，参考文献[60]表示近乎不可见的图像扰动可能导致NN为另一个对象分类；参考文献[81]构造被任意分类的抽象合成图像；参考文献[72]从原始图像找到与DNN的观点无法区分的图像的解构版本，并且对于文本[67]在实际文本中插入任意分类的打字错误和随机语句。这些示例表明，可以找到能够驱动DNN生成无意义或意外输出的特定输入。虽然不是所有的伪像看起来都是“不自然的”，但是，它们形成了在网络正常运行时以可以忽略的概率采样的图像的子集。在我们看来，在生成DNN和一般每个黑盒的解释时，应该遵循两条准则来避免这种现象。第一个是这种强有力的解释，就像任何解释器一样，应该尽可能地概括。其次，人工制品不应该代表自然的扰动。

结论

在这篇文章中，我们全面概述了文献中提出的解释基于不透明和模糊机器学习模型的决策系统的方法。首先，我们确定了解释问题家族的不同组成部分。具体地说，我们已经为属于每个家庭的每个问题提供了正式的定义，为每个问题捕捉到了适当的特性。我们将这些黑盒问题命名为：模型解释问题、结果解释问题、模型检验问题、透明盒设计问题。在这方面，我们提出了一种文献中研究的方法的分类，这些方法考虑了以下维度：所解决的特定解释问题，所采用的解释器的类型，打开的黑盒模型，以及黑盒模型用作输入的数据类型。

对文献的分析得出的结论是，尽管已经提出了许多解释黑匣子的方法，但一些重要的科学问题仍然没有得到回答。最重要的悬而未决的问题之一是，到目前为止，对于什么是解释还没有达成一致意见。事实上，一些作品提供了一组规则作为解释，另一些作品提供了决策树，还有一些作品提供了原型(特别是在图像的上下文中)。显然，这一领域的研究活动还没有提供足够的重要性来研究定义解释的一般和共同的形式主义，确定解释应该保证的属性，例如，可靠性、完整性、紧凑性和可理解性。关于最后这一性质，没有一项工作认真地解决量化人类解释的可理解性等级的问题，尽管这是至关重要的。对能够捕捉到这一方面的度量的研究是具有挑战性的，因为它还会考虑诸如用户的专业知识或理解解释的可用时间等方面。定义用于解释的(数学)形式主义，以及用于测量解释对人类可理解程度的工具，将提高本文提出的大多数方法的实际适用性。

此外，还有其他与黑匣子和解释相关的公开研究问题正开始受到科学界的关注和更多调查。我们将在以下内容中对它们进行讨论.本文中提出的所有工作类别的一个共同假设是，黑盒决策系统使用的特性是完全已知的。但是，除了明确询问用户的信息之外，黑盒可能还会使用其他信息。例如，它可以将用户的信息与不同的数据源相链接，以增加要用于预测的数据。

因此，需要研究的一个重要方面是理解在黑盒系统在存在潜在特征的情况下做出决策的情况下如何也可以得到解释。这一研究方向的一个有趣的起点是文献[63]中提出的用于评估基于标记数据的预测模型性能的框架，其中决策者在存在未观察到的特征的情况下做出决策。原则上，通过可见的输入特征可以推断出潜在的和未观察到的特征。因此，分配给这些潜在特征的证据可以被重定向到输入特征。例如，潜在特征可以是神经网络的隐藏神经元。使用反向传递，解释可以传播回输入变量。

最后，更有趣的一点是，解释本身就很重要，预测者可能会直接从解释中学到。这方面的一个开始研究是参考文献[56]，它提供了一个软件代理，该软件代理学习只使用解释而不是以前游戏的日志来模拟Mario
Bros.游戏。