原创 | 机器学习模型的可解释性

129148415df9cd0a4d11e3c364126b5a.png

作者:宋雨婷
本文约6300字,建议阅读13分钟本文为你详细介绍机器学习模型的可解释性。

复杂的机器学习模型在实际应用中有很高的准确率,在设计模型时主要关注的是性能,而非可解释性。模型的复杂度、非线性等特征使得他们成为“黑箱” ,很难被人类理解并应用于下游决策任务中倘若人类无法理解模型,人类很难去信任模型并把它应用于高风险决策中。因此,仅仅只关注模型的正确性是不够的,也要关注模型的可解释性。那么,如何做到模型能够被人类理解呢?一般有两个方法:一是建立本身就具有可解释性的模型,如线性模型、决策树等等。二是先建立一个黑箱模型,然后用事后可解释性分析方法对其进行分析。

在某些情况下,模型的准确率和可解释性之间可能存在权衡。准确率越高的模型的决策过程往往很复杂,难以直观理解,而可解释性高的模型则准确率较低。

82fd33a56e6deb14f542a45aabee0ce5.png 

1bd62f3d7de6397d02e1fa905bd62153.png

本文将先从内部可解释模型与事后可解释性分析方法两方面介绍目前用于模型解释的常见方法,然后介绍评估模型解释的有效性和准确率的方法,接着,从实证和理论两个角度分析模型解释的可靠性和有效性,最后介绍未来可解释性分析的发展方向。

期望解释的模型特征主要有:线性关系特征、特征重要性排序、梯度向量和广义线性可加。模型可能是可解释的,也可能是不可解释的 比如,如果一个模型的响应变量由上千个因变量共同影响,此时,即使可以评估每个因变量的权重,使用者也很难去理解模型。

为了更加清晰明了地解释机器学习模型,本文将从基于规则的模型解释、风险评分、广义可加模型和基于原型层的模型解释四个维度对机器学习模型的内部机理进行解释。

1. 基于规则的模型解释

在现实生活中,我们经常会使用“如果...,那么...”的语句对事物进行判断,比如“如果他不听课且不写作业且不复习,那么他将不及格。”IF-THEN 结构在语义上类似于自然语言和人类的思维方式,因此利用IF-THEN结构构建的模型具有很高的可解释性。对于一条规则,如果满足条件的样本预测出来的结果与真实值不符,那么这条规则是不准确的;如果这条规则没有任何满足条件的样本,那么无法支持这条规则。规则通常在准确性和是否能支持之间进行权衡:通过向条件添加更多特征,可以获得更高的准确率,但会失去支持。

对于一个复杂的多分类任务,一条规则是不够的,通常分类器需要去学习10-20条规则。那么,这些规则该如何排列呢?不恰当的排列方式也许会导致两个问题:规则重叠(一个样本同时满足两条规则,然而两条规则指向不同的预测结果)和支持率低(存在样本不符合所有规则)。后者可以通过引入默认规则来解决。即假如样本不符合所有规则,则默认他的类别为A。而前者,则可以通过合适的排列方式来解决,如决策树、规则列表与可解释决策集。

看下面这张图,左侧为可解释决策集,而右侧是规则列表。不难发现,左侧为并列的结构,而右侧为层次嵌套式结构。

aad865011bf3d68e0037d9c0fd16ad08.png

fb62aba67cc561cfabffed4233cfa5d0.png

在规则列表中,如果样本的第一条规则的条件为 true,则使用第一条规则进行预测。如果样本的第一条规则的条件为假,则转到下一条规则并检查它是否适用,依此类推。决策列表通过仅返回列表中适用的第一条规则的预测结果来解决重叠规则的问题。

决策集类似于规则的集合,不同之处在于某些规则可能具有更高的投票权。在一个决策集中,规则要么是互斥的,要么存在解决冲突的策略,例如多数投票。

1.1. 贝叶斯规则列表

在了解了规则的排列方式之后,规则又是如何生成的呢?又是以什么样的权重、顺序排列到一起的呢?贝叶斯规则列表回答了以上问题。

贝叶斯规则列表通常包括三个步骤:预挖掘先行词、构建规则列表、和模型参数推断。以医疗诊断为例,现在收集了年龄、有无高血压病史、是否抽烟等特征,需要通过这些特征去诊断患者患有中风的概率。

首先,在预挖掘先行词阶段,利用关联规则挖掘技术(如Apriori等)去挖掘数据集找出频繁出现的项集,如“年龄大于60”(1-项集)、“年龄大于60且抽烟”(2-项集)、“年龄大于60且抽烟且有高血压”(3-项集)。把这些频繁出现的项集作为决策规则中的IF条件,即先行词。

接着,在构建规则列表阶段,计算满足IF条件的样本患有中风的条件概率,比如 “IF偏瘫且年龄 > 60,THEN中风风险为 58.9%(53.8% - 63.8%)”。构建完初步的规则列表后,需要对规则进行排序和筛选,来优化规则列表的性能。可以根据规则的准确性(如条件概率、后验概率等)、可解释性(如规则的简洁性、逻辑清晰度等)或其他相关指标进行排序。例如,按照条件概率从高到低对规则进行排序,优先选择准确性较高的规则。筛选可以根据设定的阈值或其他标准,去除性能较差或不太重要的规则。例如,如果某个规则的条件概率低于一定阈值,或者规则过于复杂且对整体性能提升不大,会将其从规则列表中删除。

最后,在模型参数推断阶段,需要确定规则列表中各项参数(如规则的权重、条件概率的阈值),通常采用 Metropolis - Hastings 算法来实现。该算法通过在模型参数的可能取值空间中进行随机采样,并根据一定的接受准则来决定是否接受新的采样值,从而逐步逼近最优的参数估计。随机采样是对d进行采样,从当前的72a80163f47eaf8dd04f007c0dab1da0.png生成提议的f73aaac594624b5e31fae878b4e3216c.png,通常有三种操作选项:移动(Move)、添加(Add)、移除(Remove),对应的概率如下:

d65a2c5d24254e5ab2e02d1171dd97d9.png 

887351d38f99698df379796614cbd651.png

通过多次迭代采样,算法能够充分探索参数空间,考虑不同参数取值对模型性能的影响,最终得到较为准确的参数估计值,使模型能够更好地拟合数据,提高预测的准确性和可靠性。

最后,经过以上操作,得到最终的规则列表,如下图:

d98351e8714b72801ab3de853d8073c6.png 

9177b04fd897551adae6184ec7459e4b.png

1.2. 可解释决策集

规则列表相当于一串IF-THEN-ELSE语句,虽然复杂度比决策树低,然而,决策列表仍然存在缺点。通过IF-THEN-ELSE语句链接规则意味着新规则只能覆盖特征空间的越来越窄的切片。即使列表中的前几条规则是可解释的,附加的规则也会变得不那么可解释,因为它仅适用于越来越狭窄的情况。换句话说,附加规则只对前面规则都不适用的数据点才有用,这限制了决策列表的可解释性。此外,在多分类问题中,大多数类别只能用更窄的规则来描述,因为它们出现在列表的后面,这对那些希望所有类别都有同样好规则的专家来说,是个很麻烦的问题。为了解决这个问题,Hima_Lakkaraju提出了可解释决策集这个基于并列结构的模型。基于这个并列结构,人类可以依次了解每条规则的工作原理。

首先,我们对决策集的一些属性进行定义。为了保证可解释性,我们定义了决策集大小、决策集长度、覆盖率和重叠率四个维度。

  • 决策集大小:决策集中的规则越少,人类越容易理解。定义:对于决策集R,Size(R)=决策集中规则数量。

  • 决策集长度:每条规则中变量越少,该规则越容易被人类理解。定义:对于规则r=(s,c),length(r)=规则r中变量数量。

  • 覆盖率:当知道一条规则适用于哪些数据点,便可以更好的理解模型。定义:对于规则r=(s,c),cover(r)=数据集中所有满足规则r的数据点的集合。

  • 重叠率:通过规则的重叠率来衡量决策集的决策边界是否被明确。定义:对于规则r=(s,c)和r’=(s’,c’),overlap(r, r′) = cover(r) ∩ cover(r′)。

通过在测试集上调用模型来评估整个决策集的整体正确性,但仍然需要评估各条规则的正确性,为此定义了覆盖样本正确集和覆盖样本错误集来进行评估。

  • 覆盖样本正确率:对于一条规则r,定义correct-cover(r) = {(x, y) ∈ cover(r) | y = c},表示为满足规则条件的点被规则正确预测的集合。

  • 覆盖样本错误率:对于一条规则r,定义incorrect-cover(r) = cover(r) \ correct-cover(r),表示为满足规则条件的点被规则错误预测的集合。

有了这些属性后,利用它们来定义目标函数,并把目标函数分为七个部分,将这七个部分加权求和作为最终的目标函数,各个部分表示如下:

首先,使用规则数量较少的决策集:6d9139b04e8a4602ba47bb792316af65.png9b830360e7d804a56208d7105ea04f26.png,其中,S是决策集中规则数量。

其次,单一规则的长度越短越好:de4b55df35e26cd9414216173870c967.png5db70b72286d248d2e3521caaf003a63.png,其中0502b08d1898d0252c6f2dcd5b4d7ae4.pnga4496985a4ed241d023f4549ecd163b0.png规则之间的重合度应越少越好,为此,定义f3,f4:

1c164f58efcb1ba70439e237c03052ae.png 

45e39359108b6b088395080475665f99.png

e16ae7b310de10cc0aeac9309de5ce84.png

4f6e6831e92f8fb7766c7c51fa321266.png 

对于每个类别,鼓励决策集中至少有一个规则去预测他:

ba0addd871d8377ff46a1eab3b1a7fdd.png

准确率:6d44e9e490f3ee2e53f250c7b79f4c29.png985ae0bdecf36a98d048fae506bb3046.png

召回率:a0838a8b99d305356c333bb342f66afa.png2e356764d0eae0c80be5d19dd1783052.png

最终,定义决策集R=c45240c243d2fc2f8b41ff8ddc1c36ba.pnga03344a3f6efee1b3bfa9131807500fa.png

目标函数中包含很多属性,优化它并非容易,这是一个NP问题,目标函数是非负、非常态、非单调的子模函数,用于优化目标函数的一个常用的算法是smooth local search(SLS),该算法通过对基于某个潜在子集fbb83b9b9e81db0148b361001cb05c96.png的不同概率的元素(或规则)进行采样,找到决策集R。根据目标函数选择集合A中的元素,得到的决策集R是一个平滑的局部最优解。算法流程如下。

d623c59f4dbb3b43f0f4a3a6a6f80566.png

a48ee4467ae70e785516e57fb2551584.png

2. 风险评分

风险评分是一种广泛使用的线性分类模型,用于通过简单的算术计算来评估风险。风险评分在医学和刑事司法等领域有许多应用。比如看下面这张图:

bcb1045ec24b151384feb787bc03c57b.png 

88b2b8aecc242c19fa6c296f9d85e8ba.png

图中列出了几条用于评估囚犯出狱后二次犯罪风险的规则,例如“之前被捕次数≥2,则加1分”“之前被捕次数≥5,则加1分”等,根据这些规则加减分来计算总分。同时,图片给出了不同分数对应的再犯风险概率,例如分数为 - 1 时,再犯风险为 11.9%;分数为 4 时,再犯风险为 95.3%。

然而,许多风险评分方法仍然是由领域专家手动构建的,这些方法通常依赖于专家判断,缺乏性能保证。Berk Ustun提出通过数据驱动的方式来学习构建风险评分。他把风险评分问题抽象成一个MINLP问题。

首先,记一个包含n个独立同分布训练样本的训练集为1dc8e907a30169eda2fa077db1d60f9a.png,其中,518e9f22b177a19340e9b39c22cf6063.png表示特征向量2266e19b109a97ade05bf2cf34d573a9.png,06f72ac723159edee968a1ca03994ff2.png表示类别标签。我们将分数表示为线性函数s(x)=<6d9adbd879c89cf47682a495c6650371.png>,其中,5d4788b15acf066d0a9c2ba7c0c6a57a.png是包含d+1个系数9cf45e0eb6d1723ecea1debcc497d7af.png的向量,2251fb133117293a831ca7c007dbf632.png为截距。在这个设定中,系数aaac15f66f82fb7a8de8749abef814fc.png表示特征j对分数的贡献。对于具有特征fd7a5f80b60716ef74b0c96421945613.png的样本,用户计算分数si(x)=<ebe9f17602c1ba5312216aa60c9086bc.png>,然后将分数转换为预测风险的估计值。我们通过logistic函数估计样本为正例的预测风险:ba2bd28f14bb43630fe00fdea8bd11d2.png8c0874e4d426265bb2aee8ee7fd2f127.png

我们的目标是训练一个稀疏的、具有小整数系数且在校准性和排序准确性方面表现良好的风险评分模型,通过求解一个混合整数非线性规划来确定系数的值,这是一个离散优化问题,其形式为:

5611a7c6db76dd07510f7d1386c33630.png 

c9de65e99ad2b8a51300c3807aa62a76.png

目标函数:06853d766aedcf4e42ef7c4351952c9c.pngfe51aab1d7a84130b4ed6dfe08713a68.png,约束条件:06ad747ffa9114456663ea77b5565f67.png60b5eb3db0d4fea0a576421921f617ee.png

其中:

  • 36753be2afb1ddb4ed8a66df8756733c.png是归一化逻辑损失函数。

  • 30442b4901ee9dcf1bbfa1831033960a.pngb631fb81953b8da1de6beb96f1404e6e.png9eefe81652e6c0c046e8bc1234659770.png- 半范数。

  • 4d803348e1975dac1395bf8fb79091b9.png是用户提供的一组可行系数向量。

  • 230401c78739f5b616e4d15e26c06cf7.png3fdc4e9daf7a1b6b40e5478e6ff5800a.png是平衡拟合和稀疏性的权衡参数。

优化RiskMINLLP是困难的,因为2ac6935647aeb2720dc83a6a72099b02.png-正则化、整数最小化、MINLP问题都是NP的难点。为此,Berk Ustun利用了多种方法求解风险评分问题,包括切割平面算法(CPA)、晶格切割平面算法(LCPA),并利用离散坐标下降(DCD)、顺序舍入(SequentialRounding)、链式更新(ChainedUpdates)对算法进行改进。此处不做过多展开。

3. 广义可加模型

爱因斯坦说过:“凡事应尽可能简单,但不能过于简单。” 线性模型是简单而可解释的,然而,它的简单导致它无捕捉到数据中的非线性特征,因此,它的准确度往往不高。那么,应该如何修改,使其保留一部分的解释性,同时具有较高准确度呢?Yin Lou提出,对于线性函数9b0ca7c36f21431b026dbb2c25e1160e.pngb3000280da527de9aedabea9286fa826.png,用b7e16044a26fcaadccfda9673443dd85.png43502a482f39c1588f9c411197a38f55.png来替换9f2fc087b00bbe091a3c9cd335114e97.png,用4c54292ea8489b730933b319d94df815.png6c6f427defbb5579d9b5f1dac5986823.png替换y。此处,f可以是一系列的平滑函数,如样条函数、局部回归、树模型等。

下面这张表总结了考虑的不同复杂度模型之间的差异。

312c260a221e15c48a52ce4b24ba3040.png 

0b3e4be01c7f11b6b174b3d4fc9bb89e.png

线性模型和广义线性模型是最容易理解的,但通常也是最不准确的。相加模型和广义相加模型在许多数据集上比 GLMs 更准确,因为它们捕获了(单个)特征与响应之间的非线性关系,但保留了线性模型的大部分可理解性。复杂模型在许多数据集上更准确,因为它们同时考虑到了非线性和交互作用,但由于它们过于复杂,导致几乎不可能解释它们。

广义可加模型明确地将一个复杂函数分解为一维组件,即其形状函数deddb9b22eb21c3e9c578f34baff4be4.png本文中将考虑两类形状函数:回归样条和树或集成树。

  • d次回归样条的形式为:d3aa25be35d92664aa661972d121a782.pnge9966c2b9d4f46dbc3a56b9a77648f77.png

  • 树或集成树:包括Binary Trees、Single Tree、Bagged Trees、Boosted Trees、Boosted Bagged Trees。

拟合样条归结为学习基函数3ffaada4df893abbb392be90a2d53b7f.png8122e59892ba3e7fb6977212b255bb38.png的权重ae208369eb36f5bd6123fe00bacc4219.png7b4c0cb8a7b28497998c4ba2e577067b.png。学习权重可以归结为拟合线性模型f0113c3739ccdf5ed097b554acdb4fbd.png1020841239568258cf59e7123e50f5c4.png,其中83bba6688f20a9297a6229d5d836671d.pnga17431efa0c31ab1969b4b70e957df4a.png;线性模型的系数可以使用最小二乘法精确计算。为了控制平滑度,用一个 “摆动度” 实现惩罚:最小化53c997bc30c8217bf566865fdb601933.png41881473ca7f75496ff809137496decf.png,其中f94120b980c0b3bd3940cafad4edd374.png4375a3197628953923ffd9410598c20f.png是平滑参数。8dd50c1659ba582f72e7cf4e4bc06b11.png415d002d46c21d02c597e8ad4eddbb8c.png的大值会导致为直线,而59ada129d4f020e6490908ff0cd5ca80.png88764749a5293843bcf61e08d0a66e92.png的小值允许样条紧密拟合数据。

使用标准梯度提升法,唯一的区别是:由于需要学习全部特征的形状函数,在提升的每次迭代中,必须依次循环遍历所有特征。算法伪代码如下:

febd8a9092d1415c6656e18a95505a32.png 

b46ad98fbf025d90405be07b25a48ac4.png

在算法 1 中,首先将所有形状函数设置为零(第 1 行)。然后循环M次(第 2 行)并遍历所有特征(第 3 行),计算残差(第 4 行)。学习出一维函数来预测残差(第 5 行)并将其添加到形状函数(第 6 行)。

对于拟合GAM,反向拟合算法也是一种常见算法。该算法从所有形状函数的初始猜测开始(例如将它们都设置为零)。然后学习第一个形状函数d18bb2a66876c86d577409af6a9f6cd3.png,目标是使用训练集预测y。然后在残差ae5231655618032bb9ee930cc0b06690.png上学习第二个形状函数11edbdef9328d7e1d33cbcfd1e137f79.png,即使用训练集663239a4fd3519d63f99f0d8feb170bd.png第三个形状函数在残差f2108f2ab7b2ba2b93eb4137ecdc6227.png上进行训练,依此类推。在训练了n个形状函数之后,丢弃第一个形状函数并在其他n-1个形状函数的残差上重新训练它。

4. 基于原型层的模型解释

事后解释性方法的一个问题是,解释本身可以根据解释的模型而改变。例如,对于网络如何对单个对象进行分类,很容易创建多个相互冲突但令人信服的解释,但其中没有一个对对象进行正确的分类。与此同时,事后解释性方法经常创造出对人类没有意义的解释,为此需要额外的建模来确保解释是可解释的。

如果一个深度学习模型可以解释自身推理的过程,那么这个模型自然而然地能够对每个预测给出解释,并且这些解释会与网络实际的预测结果一致。不妨看看以下的网络架构:

24828b25bead1e0f0915a533d100059a.png 

ae7a5159223c1ee35f6ad7ccb4f48eef.png

该网络由三部分组成:自编码器、原型层、全连接层。

现有一个图像分类任务,有n个样本,K个类别。训练集为cc853e9b9e513c24ac1482931f9f6748.png20af90a3f9b108522c27ef2c5dafd74d.png,对于每个cb30556171a3d903bd27d39448ae45f1.png8a8936a2712106d92bdfa9d98233f810.png,有e0de09a1d2d6e8c9f831f4b9a2ad6577.png77b1b4af6684e266ab70ecdb9a422f8e.png。为了挖掘图像中的潜在特征,p维数据先经过encoder被转换为q维,即b38940450447d7fd85daf771ad1a401c.png31adb81a313cd5c153517bbc816719bb.png,接着,计算转换后的向量a042aec653f58b50b87799da34a6d51a.pngb34318291674ba42a34ada5f96a8fd62.png与q维的原型向量5f07f4c66e50665df706d6534682a8a3.png5ec27288f7f2ac2333d77a139e54ea01.png计算距离并将这些距离信息传递给全连接层和softmax层,最终输出属于每个类别的概率。由于原型向量与编码输入处于相同的潜在空间,因此可以借助解码器将原型向量映射回原始数据空间(如像素空间)进行可视化展示,此时的原型向量展示了每个类别最具代表性的形态。

这个网络的目标函数如下:

9549821a3bdb0869c8eb02c17487557e.png 

4ed38d5ebcbd68b753637e65509a28d3.png

它由四部分组成:分类误差项、重建误差项和可解释性正则化项。同时,通过2fcc1ce3a0869910ce08fe787543885b.png1a7be3304a2209d99ed4b1d477de6613.png来进行调整各部分之间的比例,从而掌控模型精确性与可解释性之间的平衡。每个部分的计算公式如下:

  • 这是一个分类任务,分类误差项由交叉熵计算,公式如下:

483e0865af0f3a1bc750fac86de33099.png 

6b3ae49a5ced7c269511489bef456525.png

  • 为了保证自动编码器能够准确地重构输入数据,通过计算原始输入与自动编码器重建输出之间的平方距离来衡量重建误差,公式如下:

32bcf7ff712371f7055ac7f1a224c44f.png 

3e94dd7b991c1b726ff60f2c53b295bb.png

  • 为了促使原型向量具有与训练数据相似的特征表示,使得解码后的原型图像能够与真实数据相似,每个原型向量在潜在空间中应尽可能接近至少一个训练示例,公式如下:

20938e87cd53ccdd3b44ee43d56d5431.png

  • 为了确保原型向量能够覆盖整个训练数据空间,避免原型过于集中或无法代表某些数据部分,理应要求每个编码训练示例在潜在空间中尽可能接近一个原型向量,公式如下:

47bd85ae1b8da1116dc092a1c025a9d2.png 

33fbe0affdae938dda644a2c93efc901.png

5. 结论

通过基于规则的模型解释、风险评分、广义可加模型和基于原型层的模型解释四个维度,解释了机器学习模型的内部规则结构,在后续的内容中,将事利用事后可解释性分析方法解释黑箱。

编辑:于腾凯

校对:林亦霖

作者简介

宋雨婷,苏州大学,未来科学与工程学院数据科学与大数据技术专业在读,对可解释性机器学习、计算机视觉等领域感兴趣。

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

d302ade515a30c3bff8d0f7874bdd9e3.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”拥抱组织

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值