可解释机器学习 Task06 -LIME可解释性分析

T4neYours

已于 2023-01-03 23:03:28 修改

阅读量1k

点赞数

分类专栏： Datewhale——可解释机器学习文章标签：人工智能 python

于 2022-12-24 01:33:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Insistence0807/article/details/128425616

版权

Datewhale——可解释机器学习专栏收录该内容

5 篇文章

订阅专栏

可解释机器学习 Task06 -LIME可解释性分析

一、LIME简介
二、表格数据 LIME可解释性分析（以葡萄酒质量二分类数据集为例）
三、图像数据 LIME可解释性分析
四、文本数据 LIME可解释性分析
五、选取有代表性的样本
六、LIME的优缺点
- 1.优点
- 2.缺点
七、LIME改进——自适应距离（OptiLIME）

一、LIME简介

论文：“Why Should I Trust You?”: Explaining the Predictions of Any Classifier

原始模型的高维边界是十分复杂的，类似黑箱的
我们选取一个待测样本，从该样本的邻域生成一些邻域的样本
与待测样本近的样本权重高，与待测样本远的样本权重低
把这些权重高的样本输入到原始模型中，得到原始模型的预测结果
选取一个可解释性非常好的模型（下图为线性回归），在局部拟合出原模型
通过这个可解释性非常好的模型来分析出原模型的哪些特征重要，哪些特征不重要

在这里插入图片描述

二、表格数据 LIME可解释性分析（以葡萄酒质量二分类数据集为例）

先选取一条数据（一杯葡萄酒的数据）
对于其每一个特征进行微小扰动
扰动影响越大的样本，距离原始样本的距离较远，权重较小
扰动影响越小的样本，距离原始样本的距离较近，权重较大
一个样本可以生成好多扰动样本，将扰动样本输入到模型中生成结果
将结果作为标注，扰动样本作为特征，训练一个可解释的模型

在这里插入图片描述

三、图像数据 LIME可解释性分析

扰动方式：需要自己指定扰动的方法

本例采用超像素分割算法：将原图聚类分割成N个图块，每一个图块都是1/0（0：不存在，灰色色块；1：存在，原始色块），则这个长度为N的向量为可解释的特征
所以下图的图片为特征，后面0.85、0.00001、0.52为标签
最后的Explanation表明：树蛙的脸部对于模型预测图片为树蛙有较大重要性

在这里插入图片描述

表格、图片数据小结

在这里插入图片描述

四、文本数据 LIME可解释性分析

词袋模型：给定每一个词对应的索引，然后把一句话转化为索引对应的向量，作为可解释特征来训练模型

在这里插入图片描述

五、选取有代表性的样本

下图中每一行代表一个样本，每一列代表一个特征
可以观察到样本的特征中f2特征出现了最多次（最重要）
我们选择第二行和第五行样本便可以覆盖掉4/5的特征

在这里插入图片描述

六、LIME的优缺点

1.优点

兼容任意一种机器学习算法
特征重要性：解释、理解、信赖、改进（特征工程）
What-if 场景：如果每个月多挣500元，额度是多少
可解释单个样本预测结果、选取代表性样本
可人工设计、构造可解释特征（如前文的超像素分割）

2.缺点

人工设计、构造的“可解释特征”，不一定科学（如何构造科学的可解释特征是LIME最难的点，也是最容易出彩的点）
“局部线性”可能无法拟合原模型
不同样本，如何计算邻域样本权重（对于“远”、“近”的定义）
每个待测样本都需训练对应可解释模型，耗时长

七、LIME改进——自适应距离（OptiLIME）

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。