模型可解释性-树结构可视化_树形结构可视化-CSDN博客

本文链接：https://blog.csdn.net/iqdutao/article/details/108519648

在算法建模过程中，我们一般会用测试集的准确率与召回率衡量一个模型的好坏。但在和客户的实际沟通时，单单抛出一个数字就想要客户信任我们，那肯定是不够的，这就要求我们摆出规则，解释模型。但不是所有的模型都是规则模型，一些黑盒模型（比如神经网络）有着更高的准确率，但是无法给出具体的规则，无法让普通人理解和信任模型的预测结果。尤其当模型应用到银行业等金融领域时，透明度和可解释性是机器学习模型是否值得信任的重要考核标准。我们需要告诉业务人员如何营销，告诉风控人员如何识别风险点，而不仅仅告诉他们预测的结果。一个预测表现接近完美、却属于黑盒的人工智能模型，会容易产生误导的决策，还可能招致系统性风险，导致漏洞被攻击，因而变得不安全可靠。因此我们需要建立一个解释器来解释黑盒模型，并且这个解释器必须满足以下特征：

可解释性

要求解释器的模型与特征都必须是可解释的，像决策树、线性模型都是很适合拿来解释的模型；而可解释的模型必须搭配可解释的特征，才是真正的可解释性，让不了解机器学习的人也能通过解释器理解模型。

局部保真度

既然我们已经使用了可解释的模型与特征，就不可能期望简单的可解释模型在效果上等同于复杂模型（比如原始CNN分类器）。所以解释器不需要在全局上达到复杂模型的效果，但至少在局部上效果要很接近，而此处的局部代表我们想观察的那个样本的周围。

与模型无关

这里所指的是与复杂模型无关，换句话说无论多复杂的模型，像是SVM或神经网络，该解释器都可以工作。

除了传统的特征重要性排序外，ICE、PDP、SDT、LIME、SHAP都是揭开机器学习模型黑箱的有力工具。

特征重要性计算依据某个特征进行决策树分裂时，分裂前后的信息增益（基尼系数）；
ICE和PDP考察某项特征的不同取值对模型输出值的影响；
SDT用单棵决策树解释其它更复杂的机器学习模型；
LIME的核心思想是对于每条样本，寻找一个更容易解释的代理模型解释原模型；
SHAP的概念源于博弈论，核心思想是计算特征对模型输出的边际贡献；

决策树概述

决策树是一种基于二叉树（最多有左右两个子树）的机器学习模型。决策树遍历训练数据并将信息浓缩为二叉树的内部节点和叶节点，从而学习训练集中的观测值之间的关系，这些观测值表示为特征向量x和目标值y。（注：向量为粗体，标量为斜体。）

决策树中的每个叶子都表示特定的预测结果。回归树中输出的预测是一个（连续的）值，例如价格；而分类树中输出的预测是（离散的）目标类别（在scikit中表示为整数），例如是否患有癌症。决策树将观测分为具有相似目标值的组，每个叶子代表其中一个分组。 对于回归而言，叶节点中观测的相似性意味着目标值之间的差异很小；而对于分类而言，则意味着大多数或所有观测属于同一类别。

任何一个从树根到叶节点的路径都要经过一系列（内部）决策节点。在训练过程中选出特定的分割点后，每