文章目录
一、可解释性
可解释性的定义:可解释性是⼈们能够理解决策原因的程度。另⼀种定义是 :可解释性是指⼈们能够⼀致地预测模型结果的程度。机器学习模型的可解释性越⾼,⼈们就越容易理解为什么做出某些决策或预测。
可解释性的重要性
如果模型具有可解释性,我们可以更好的检查以下性质:
- 公平性 (Fairness):确保预测是公正的,不会隐式或显式地歧视受保护的群体。可解释的模型可以告诉你为什么它决定某个⼈不应该得到贷款,并且使⼈们更容易判断该决策是否基于学习⼈⼜统计学偏见 (例如种族)。
- 隐私 (Privacy):确保保护数据中的敏感信息。
- 可靠性 (Reliability) 或鲁棒性 (Robustness):确保输⼊的⼩变化不会导致预测发⽣剧烈变
化。 - 因果关系 (Causality):检查是否只找到因果关系。
- 信任 (Trust):与⿊匣⼦相⽐,⼈们更容易信任解释其决策的系统。
何时我们不需要机器学习模型的可解释性:
- 如果模型没有重大影响,则不需要解释性。
- 当问题被研究得很深入时,就不需要解释性了。
- 可解释性可能使⼈或程序能够操纵系统
可解释性方法的分类
大体可以分为两类:
可解释性模型(本质的可解释性):例如短的决策树或者是稀疏线性模型
模型无关的解释性(事后的解释性):在模型训练完成后进行解释
解释方法的输出——可以根据解释⽅法的输出⼤致区分各种解释⽅法。
• 特征概要统计量 (Feature Summary Statistic):许多解释⽅法为每个特征提供概要统计量。有些⽅法为每个特征返回⼀个数字,例如特征重要性,或者更复杂的输出,例如成对特征交互强度,每个特征对表⽰为⼀个数字。
• 特征概要可视化 (Feature Summary Visualization):⼤多数特征概要统计信息也可以可视化。有些特征概要实际上只有在可视化的情况下才有意义,并且表格不能满⾜要求。特征的部分依赖就是这样⼀种情况。部分依赖图是显⽰特征和平均预测结果的曲线。呈现部分依赖关系的最佳⽅法是实际绘制曲线,⽽不是打印坐标。
• 模型内部 (例如学习的权重) (Model Internals):对于本质上可解释的模型的解释属于这⼀类,如线性模型中的权重或决策树的学习树结构 (⽤于分割的特征和阈值)。但对于像线性模型,因为权重同时是模型内部和特征概要统计量,所以此时两者的界限是模糊的。输出模型内部结构的另⼀种⽅法是在卷积神经⽹络中将学习的特征检测器可视化。根据定义,输出模型内部的可解释性⽅法是特定于模型的 (请参阅下⼀个标准)。
• 数据点 (Data Point):这个类别的⽅法是返回数据点 (已经存在的或新创建的) 以使模型可解释。⼀种⽅法叫做反事实解释 (Counterfactual Explanations),为了解释对数据实例的预测,该⽅法通过⽤⼀些⽅式改变某些特征以改变预测结果 (例如预测类别的翻转),找到相似的数据点。另⼀个⽅法是识别预测类的原型,这⾥输出新数据点的解释⽅法要求可以解释数据点本⾝。这对图像和⽂本很有效,但对于具有数百个特征的表格数据不太有⽤。
• 本质上可解释模型:解释⿊盒模型的⼀个解决⽅案是⽤可解释模型 (全局地或局部地) 对其进⾏近似。⽽这些可解释模型本⾝可以通过查看模型内部参数或特征概要统计量来解释。
特定于模型 (Model-specific) 还是模型无关 (Model-agnostic)? 特定于模型的解释⽅法仅限于特定的模型类,例如线性模型中回归权重的解释就是特定于模型的解释,因为根据定义,本质上可解释模型的解释通常是特定于模型的解释。仅应⽤于解释如神经⽹络的⼯具也是特定于模型的。相对应的,与模型⽆关的⼯具可以⽤于任何机器学习模型,并在模型经过训练后应⽤ (事后的)。这些模型⽆关的⽅法通常通过分析特征输⼊和输出来⼯作。根据定义,这些⽅法是不能访问模型的内部信息,如权重或结构信息。
解释的性质
解释 (Explanation) 通常以一种人类可理解的方式将实例的特征值与其模型预测联系起来
解释方法的性质
• 表达能力 (Expressive Power):是该⽅法能够产⽣的解释的 “语⾔” 或结构。解释⽅法可以
⽣成 IF-THEN 规则、决策树、加权和、⾃然语⾔或其他东西。
• 半透明度 (Translucency):描述了解释⽅法依赖于查看机器学习模型 (如其参数) 的程度。例如,依赖于本质上可解释模型 (如线性回归模型,这是特定于模型的) 的解释⽅法是⾼度透明的。⽽⽅法仅依赖于修改输⼊和观察预测,其半透明度为零。根据具体情况,可能需要不同程度的半透明度。⾼半透明度的优点是该⽅法可以依赖更多的信息来⽣成解释。低半透明度的优点是解释⽅法更易于移植。
• 可移植性 (Portability):描述了使⽤解释⽅法的机器学习模型的范围。低半透明度的⽅法
具有较⾼的可移植性,因为它们将机器学习模型视为⿊盒。代理模型可能是具有最⾼可移植
性的解释⽅法。⽽仅适⽤于递归神经⽹络的⽅法具有低可移植性。
• 算法复杂度 (Algorithmic Complexity):描述了⽣成解释的⽅法的计算复杂性。当计算时间
成为⽣成解释的瓶颈时,必须考虑此性质。
单个解释的性质:
• 准确性 (Accuracy):解释预测看不见的数据会如何?如果将解释代替机器学习模型进⾏预测,那么⾼准确性尤为重要。如果机器学习模型的准确性也很低,并且⽬标是解释⿊盒模型的作⽤,那么低准确性就很好了。在这种情况下,只有保真度才是重要的。
• 保真度 (Fidelity):解释对⿊盒模型预测的近似程度如何?⾼保真度是解释的重要性质之⼀,毕竟低保真度的解释对解释机器学习模型是⽆⽤的。准确性和保真度密切相关。如果⿊盒模型具有较⾼的准确性并且解释有⾼保真度,则解释也具有较⾼的准确性。⼀些解释只提供局部保真度,这意味着该解释仅⾮常适合于数据⼦集的模型预测 (例如局部代理模型),甚⾄仅适⽤于单个数据实例 (例如 Shapley 值)。
• 一致性 (Consistency):经过相同任务训练并产⽣相似预测的模型之间的解释有多少不同?例如我们在同⼀个任务上训练⽀持向量机和线性回归模型,两者都产⽣⾮常相似的预测。然后我们选择⼀种解释⽅法去计算解释,并分析这些解释之间的差异。如果解释⾮常相似,说明是⾼度⼀致的。但这个性质可能会有点棘⼿,因为这两个模型可以使⽤不同的特征,但得到相似的预测 (也叫 “罗⽣门效应”)。在这种情况下,⾼度⼀致性又是不可取的,因为解释必须⾮常不同。但如果模型确实依赖于相似的关系,则需要⾼⼀致性。
• 稳定性 (Stability):类似实例之间的解释会有多相似?⼀致性是⽐较模型之间的解释,⽽稳定性则⽐较同⼀模型的相似实例之间的解释。⾼稳定性意味着实例特征的细微变化基本上不会改变解释 (除⾮这些细微变化也会强烈改变预测)。缺乏稳定性可能是解释⽅法差异很⼤的结果。换句话说,解释⽅法受到待解释实例的特征值的微⼩变化的强烈影响。解释⽅法的不确定性部分也可能导致稳定性不⾜,例如数据采样步骤,就像局部代理模型使⽤的那样。⾼稳定性始终是可取的。
• 可理解性 (Comprehensibility):⼈类对解释的理解程度如何?这很难定义和衡量,但⾮常重要。⽐较容易接受的观点是可理解性取决于读者和观众。衡量可理解性的想法包括测量解释的⼤⼩ (线性模型中⾮零权重的特征的数量,决策规则的数量等等) 或测试⼈们如何从解释中预测机器学习模型的⾏为。还应考虑解释中使⽤的特征的可理解性,特征的复杂转换可能还不如原来的特征容易理解。
确定性 (Certainty):解释是否反映了机器学习模型的确定性?许多机器学习模型只给出预测,⽽没有关于预测正确的模型置信度的描述。如果模型预测⼀个病⼈患癌症的概率为 4%,那么是否可以确定另⼀位特征值不同的病⼈患癌症的概率为 4%?⼀个包含模型确定性的解释是⾮常有⽤的。
• 重要程度 (Degree of Importance):解释在多⼤程度上反映了解释的特征或部分的重要性?例如,如果⽣成决策规则作为对单个预测的解释,那么是否清楚该规则的哪个条件最重要?
• 新颖性 (Novelty):解释是否反映了待解释的数据实例来⾃远离训练数据分布的 “新” 区域?在这种情况下,模型可能不准确,解释可能毫⽆⽤处。新颖性的概念与确定性的概念有关。新颖性越⾼,由于缺乏数据,模型的确定性就越低。
• 代表性 (Representativeness):⼀个解释能覆盖多少个实例?解释可以覆盖整个模型 (例如线性回归模型中的权重解释),也可以只表⽰单个预测。
人性化的解释
⼈类更喜欢简短的解释 (只有 1 或 2 个原因),这些解释将当前的情况与事件不会发生的情况进行了对比,特别是异常原因提供了很好的解释。解释是解释者与被解释者 (解释的接收者) 之间的社会互动,因此社会背景对解释的实际内容有很⼤的影响。
- 解释具有对比性:⼈类通常不会问为什么会做出某种预测,但会问为什么会做出这种预测而不是另⼀种预测。我们倾向于在反事实的情况下思考,即 “如果输⼊ X 不同,预测会是怎样的? ”。
- **选择性的解释。**⼈们不希望对涵盖事件的实际原因和完整原因进⾏解释。我们习惯于从各种可能的原因中选择⼀个或两个原因作为解释。作为证明,打开电视新闻: “股票价格的下跌被归咎于由于最新软件更新的问题⽽对该公司产品越来越强烈的反弹。 ”(解释要简短,即使真实情况很复杂,但只给出 1 到 3 个原因。LIME 在这⽅⾯就做得很好。)
- 解释是社会性的:注意应用的环境和目标受众。
- 解释的重点是异常:⼈们更关注异常原因来解释事件 (Kahnemann 和 Tversky, 1981[10])。这些原因发⽣的可能性很⼩,但还是发⽣了。消除这些异常原因将⼤⼤改变结果 (反事实解释)。
- 解释是真实的:良好的解释是真实的,但是并不意味着是“好的”解释的最重要的因素。
- 好的解释与被解释者的先验知识是一致的
- 好的解释是普遍性和能够被人认可的
二、可解释模型
线性回归
逻辑回归
决策树
决策规则
RuleFit
其他的可解释方法:朴素贝叶斯,k近邻
三、模型无关的方法
部分依赖图
用于回归的部分依赖图定义
其中 x s x_s xs代表我们想要了解的预测的相关特征, x c x_c xc代表其他的特征, ( x s , x c ) (x_s,x_c) (xs,xc)代表总的特征空间
使用蒙特卡洛方法近似方法来估算 f ^ x s \hat{f}_{xs} f^xs:
f ^ x s ( x s ) = 1 n ∑ i = 1 n f ^ ( x s , x c ( i ) ) \hat {f}_{x_s}(x_s)=\frac{1}{n}\sum^n_{i=1}\hat{f}(x_s,x_c^{(i)}) f^xs(xs)=n1i=1∑nf</