A comprehensive taxonomy for explainable artificial intelligence: a systematic survey of surveys on methods and concepts
Schwalbe G, Finzel B. A comprehensive taxonomy for explainable artificial intelligence: a systematic survey of surveys on methods and concepts[J]. Data Mining and Knowledge Discovery, 2023: 1-59.
内容总结
- 0摘要
- 研究人员和应用人员需要XAI方法的分类法以:掌握主题的广度,比较方法,选择方法
- 本文提出了XAI方法的分类
- 综述了超过50篇综述,融合了这些文章的术语和概念得到统一的结构化分类法。
- 目标用户包括初学者,研究人员和应用人员,为他们提供参考和XAI方法特征的广泛的综述
- 1介绍
- 本文目标
- (1)帮助初学者获得一个良好的初步概述,并为更深入的研究提供起点,
- (2)支持从业人员寻求一种分类方案,以便为他们的用例选择合适的XAI方法,以及
- (3)帮助研究人员确定到目前为止还没有考虑或很少考虑的方面的理想组合。
- 本文贡献
- 完整的XAI方法分类
- 广泛的XAI方法元研究
- 广泛的XAI方法综述
- 本文目标
- 2背景
- 2.1相关工作
- XAI方法的元研究
- 以前的元研究,以及它们没有做好的地方
- Saeed and Omlin (2021)提出了当前在这个领域中存在的挑战
- 分类法的元研究
- 用例和需求分析
- 我们寻找XAI方法可以用于需求分析和formulation的特征
- XAI方法的元研究
- 2.2XAI的历史
- XAI这个缩写在2004年首次被van Lent提出
- McCarthy在1958年第一次提出XAI的思想,described the idea of inherently transparent systems that would be explainable by design.
- Inherently transparent approaches为专家系统铺平了道路。但是整合隐含的专家只是太困难了,导致这种方法在90年代被淘汰。
- 第一个让神经网络决策变透明的方法在90年代中期提出,如Decision Surface(1992,Craven)
- GDPR促使研究人员更强调问责能力和“得到解释的权利”以及对更多的利益相关者(stakeholders)进行解释。DARPA发表后XAI一词愈加常见。
- Gunning,2019定义XAI有两个目标
- 创建机器学习技术,产生可以解释(它们的决策过程以及输出)的模型,同时保持高水平的学习性能。
- DARPA提出的策略:
- deep explanation
- interpretable models
- model induction
- DARPA提出的策略:
- 开发以用户为中心的方法,让人类能理解他们使用的人工智能
- 需要高度跨学科的视角,基于计算机科学、社会科学和心理学等领域
- 创建机器学习技术,产生可以解释(它们的决策过程以及输出)的模型,同时保持高水平的学习性能。
- 另一个里程碑是考虑到如何评估解释的优劣
- 2.3基本定义(暂略)
- 笔者注:第五章中出大问题的explanadum和explanator的定义作者在这里给了。
- Explanandum (what is to be explained, cf. Sect. 5.1) refers to what is to be explained in an explanation system. This usually encompasses a model (e.g., a deep neural network). We here also refer to an explanandum as the object of explanation. 被解释的东西,通常包括模型(如神经网络),这里指解释对象。
- Explanator (the one that explains, cf. Sect. 5.2; also called explainer) is the explanation system component providing explanations. 解释器。
- 2.1相关工作
- 3文献检索方法
- 3.1搜索
- 关键词,标题过滤,摘要过滤
- 3.2分类
- 内容,长度,目标读者,引用量,有多新
- 3.3结果
- 3.1搜索
- 4关于XAI的methods和aspects的元调研
- 4.1这一章使用的分类方法(aka基本定义)
- 4.2宽泛的综述
- 4.3具有特定焦点的综述
- 特定应用(NLP,医药,推荐系统)领域的综述,人机交互ML应用的综述,可视化任务XAI的综述,强化学习任务XAI的综述,基于规则的XAI方法的综述,反事实解释和比较解释的综述,模型无关XAI方法
- 4.4XAI工具箱综述
- Skater, InterpretML, iNNvestigate, AI Fairness 360, explAIner, FAT Forensics, Alibi
- 5分类方法
- 需求推导(笔者注:为什么有这一段话)
- 5.1问题定义
- 任务:待解释的任务
- 任务类型:
- XAI方法只适用于特定的“被解释模型(explanandum)的任务类型”和“输入数据类型”,白盒方法对模型架构也有约束
- 典型的任务类别是无监督聚类(clu)、回归、分类(cls)、检测(det)、分割(seg)(语义、实例)
- 分类方法可以扩展到det、seg、temporal resolution和回归任务的局部趋势问题。处理分类器的XAI方法通常需要访问连续分类分数的预测,而不是最终的离散分类。
- 输入数据类型
- 并不是每一种XAI方法都支持每一种输入和输出信号类型,也称为数据类型(Guidotti et al. 2018)。一种输入类型是tabular(symbolic))数据,它包括数值、分类、二进制和普通(有序)数据。其他symbolic输入类型是自然语言或图形,non-symbolic类型是图像和点云(有或没有temporal resolution),以及音频。
- 任务类型:
- 模型可解释性(笔者注:这里不应该是explanator吗,被解释模型考虑什么可解释性啊,被解释模型可解释性强了还要解释模型(explanator)何用?)(explanadum和explanator的定义见2.3)
- 这里的模型可解释性是指被解释模型(explanandum)(于解决系统原始任务的模型)的可解释性水平。
- 可解释性分类
- Intrinsic or inherent interpretability:intrinsically (ante-hoc) interpretable
- 最好的情况:模型整体可以被理解
- 次之:模型可以被分为几个可模拟的part(笔者注:啊?这不应该属于blended吗)
- 最差:算法透明,可以从数学上理解模型,如error surface已知
- 包括:决策表,决策规则,决策树,贝叶斯网络,线性和逻辑斯蒂模型,SVM,一般线性模型,广义加性模型,图,FSA,简单聚类和近邻方法,图表
- Blended models:又叫partly interpretable, interpretable by design
- 内在透明的,使用符号规则来指导训练过程(?)
- 自解释模型:设计被解释模型,让解释作为它的另一个输出(除了预测之外)
- Gilpin,2018提出,解释生成模型有三种标准输出类型:
- 注意力图
- Disentangled representations:被解释模型(explanandum)的中间输出中的一个或一组维度直接表示symbolic(semantic)概念
- 文本或多模态解释:模型在预测之外输出~作为解释
- Gilpin,2018提出,解释生成模型有三种标准输出类型:
- post-hoc:另找一个负责解释的可解释模型来解释被解释模型(explanandum)(笔者注:这里的被解释模型才是我们通常意义上的被解释模型)
- 全局,通常称为代理,训练方法叫model distillation, student-teacher approach, or model induction
- 局部
- 为了保持一致性,我们在这里对任何类型的助手模型使用术语proxy and surrogatemodel。
- Intrinsic or inherent interpretability:intrinsically (ante-hoc) interpretable
- 任务:待解释的任务
- 5.2解释器的属性
- 5.2.1输入
- 需要什么输入
- 一般需要被解释模型(explanandum),有效的数据样例,甚至用户反馈或情景语境
- 可移植性(portability, translucency, or transferability)
- 透明膜性和自解释模型总是特定于某种模型的
- 模型无关(Model-agnostic, pedagogical, black-box):只需要模型输入和输出
- 模型特定(Model-specific, decompositional, white-box):需要访问被解释模型(explanandum)的内部处理或体系结构,或者甚至应用约束。
- 混合(electic, gray-box):解释器只需要访问模型中间变量的一部分
- 局部性
- 局部
- 全局
- 需要什么输入
- 5.2.2输出
- Object of explanation(笔者注:即被解释模型(explanandum),参见2.3):开发过程中需要被解释的东西
- 过程:模型如何工作。要描述的Processing类型譬如决策边界和特征归因。
- 内部表示:模型如何看待世界?更细粒度的区分考虑是否解释了特征空间中的层、单元或向量。
- 训练期间模型的变化:训练过程中,模型是如何演变的?
- 不确定性:包括贝叶斯深度学习和不确定性估计
- 数据:Pre-model interpretability (Carvalho et al. 2019)是可解释性触及数据分析和特征挖掘的大研究领域的点。
- 输出类型:实际的explanator,描述了呈现给explainee的信息类型。独立于呈现形式(what is shown vs how is shown)
- 通过样本实例:最近的其它样本,词云
- 对比/反事实/差一点的例子,对抗样本:解释为什么没有得到期望的输出。呈现要怎么改变输入的特征来得到实际的输出。反事实样本是接近原始例子的有效输入,对explainee来说可操作的特征改变的很少
- 原型解释:如生成概念向量
- 特征重要性:突出对输出具有高归因或影响的特征
- 基于规则的:如决策树,if-then规则,二元,m-of-n或超平面规则
- 降维:样本点被投影到了一个子空间
- 依赖图:表示输入特征对最中输出的影响
- 图
- 上述方法的组合
- 呈现方式
- 呈现形式:视觉(图表和热力图),自然语言,听觉及其组合
- 抽象层次
- 信息单元:解释的最小单元:原始特征,衍生特征(超像素,热力图)。对explainee不一定具有语义信息。抽象语义特征,不直接基于任何输入,如生成的原型。
- 可访问性:信息单元的组合的复杂度。explainee为了理解解释做出的智力努力,很大程度上取决于用户。与透明程度不同。
- 隐私过滤:呈现解释之前要过滤掉(移除、匿名化)敏感信息。
- Object of explanation(笔者注:即被解释模型(explanandum),参见2.3):开发过程中需要被解释的东西
- 5.2.3交互性:解释函数的实际处理;静态解释:一次性呈现解释;交互解释:系统接受用户反馈作为解释输入
- 交互任务:用户可以检视、修改解释。检视:探索解释、考虑替代方案和补充解释。修改:向系统提供纠正反馈,以调整解释器和explanandum
- 解释过程:用户迭代地查询进一步的解释
- 5.2.4数学约束:数学约束解释器的一些形式属性
- 常见约束条件包括线性、单调性、可满足性,迭代次数,大小限制(代理模型)
- 5.2.1输入
- 5.3评估指标
- 测量指标的方法:Li et al. (2020)
- 5.3.1基于功能的指标:不需要任何人类反馈,衡量解释器的形式属性
- 忠实度:Faithfulness (Li et al. 2020), fidelity (Carvalho et al. 2019), soundness (Yao 2005),
or causality (Calegari et al. 2020)。解释器的行为和实际解释对象的行为有多符合。代理模型输出相对于被解释模型输出的准确性。inherently interpretable model的忠实度是100%。 - Localization accuracy:定位精度。解释是否准确定位到感兴趣的点(由数学属性确定)
- Completeness/coverage:解释的有效范围多大。忠实度分布的一种概括。
- Overlap:针对基于规则的解释。多少数据样本满足规则集中的不止一个规则。即,度量不同规则的有效性范围重叠区域的大小。度量规则集的冗余程度。
- Accuracy:事后解释。代理模型的的预测质量。
- 构架复杂度:特定于解释器架构。人类用纯粹的架构属性(如大小)来感知的复杂度。
- 算法复杂度和可伸缩性:解释器算法的信息论复杂性。
- 稳定性或健壮性:输入样本变化后解释器变化的程度。类似对抗健壮性
- 一致性:被解释模型变化后解释器的输出的变化。功能等效的模型应该产生相同的解释。(模型无关方法)
- 敏感性:如果模型输出发生大幅度变化,局部解释是否会发生变化。模型输出的变化通常反映判别策略的变化,所以解释应该跟着变。与稳定性目标冲突。
- 表达丰富性,细节程度:解释器使用的形式语言的细节程度,关注的是近似用户感知的期望信息密度,与呈现的抽象程度有关,建议使用多种功能基础的代理来获得可比较的表达性度量。
- 忠实度:Faithfulness (Li et al. 2020), fidelity (Carvalho et al. 2019), soundness (Yao 2005),
- 5.3.2以人为本的指标
- 需要人类参与待度量的代理任务。通过观察人的反应以及收集人的反馈。一般采用代理任务,因为专家人类很贵或正式应用运行时间很长。度量XAI模型一些心理学属性,即心理模型的质量。(笔者:这两个概念是等效的吗)
- 可解释性(interpretability or comprehensibility, or complexity):人类理解到的心理模型有多近似解释器模型。依赖用户反馈,背景知识、偏见和对主体的认知。
- 有效性:心理模型对有多近似被解释模型。可以被fidelity和accessiblity代替。
- 时间效率:用户花多久才能建立一个可行的心理模型。应用于用户反映时间有限的场景(产品推荐系统和自动驾驶系统)
- 理解程度:在交互语境中衡量理解的当前状态。它有助于估计达到explainee心理模型预期程度所需的剩余时间或措施。(?)
- 信息量:解释传达的主观信息量。可以通过信息论衡量,但是通常依赖人的反馈。相关的基于功能的解释包括被解释模型的架构复杂度,忠实度和覆盖率。
- 5.3.3基于应用的指标
- 基于人对最终应用(而不是代理模型5.3.2)的反馈。
- 满意度:explainee(对最终应用)的满意程度
- 说服力:解释把explainee推向某个方向的程度。分析任务?在分析任务中,高说服力可能表明指示性校准错误。
- Improvement of human judgment:用户是否对被解释模型的决策产生适当程度的信任。
- 提高人-AI系统性能:端到端任务由以下所有事物实现:解释对象、被解释对象和解释器。例如,如,推荐系统辅助下医生的诊断质量。
- Automation capability:人-AI系统中有多少手动工作可以自动化
- 新颖性:提供给被解释者的信息的主观新颖程度。
- 6讨论与结论
- 持续的趋势:医学和推荐系统的应用领域,以及可视化模型的(可视化)解释。
- 即将到来或重新觉醒的趋势:自然语言处理领域,以及基于规则的解释方法。