可解释机器学习 Task06 -LIME可解释性分析

一、LIME简介

论文:“Why Should I Trust You?”: Explaining the Predictions of Any Classifier

  • 原始模型的高维边界是十分复杂的,类似黑箱的
  • 我们选取一个待测样本,从该样本的邻域生成一些邻域的样本
  • 与待测样本近的样本权重高,与待测样本远的样本权重低
  • 把这些权重高的样本输入到原始模型中,得到原始模型的预测结果
  • 选取一个可解释性非常好的模型(下图为线性回归),在局部拟合出原模型
  • 通过这个可解释性非常好的模型来分析出原模型的哪些特征重要,哪些特征不重要

在这里插入图片描述

二、表格数据 LIME可解释性分析(以葡萄酒质量二分类数据集为例)

  • 先选取一条数据(一杯葡萄酒的数据)
  • 对于其每一个特征进行微小扰动
  • 扰动影响越大的样本,距离原始样本的距离较远,权重较小
  • 扰动影响越小的样本,距离原始样本的距离较近,权重较大
  • 一个样本可以生成好多扰动样本,将扰动样本输入到模型中生成结果
  • 将结果作为标注,扰动样本作为特征,训练一个可解释的模型

在这里插入图片描述

三、图像数据 LIME可解释性分析

扰动方式:需要自己指定扰动的方法

  • 本例采用超像素分割算法:将原图聚类分割成N个图块,每一个图块都是1/0(0:不存在,灰色色块;1:存在,原始色块),则这个长度为N的向量为可解释的特征
  • 所以下图的图片为特征,后面0.85、0.00001、0.52为标签
  • 最后的Explanation表明:树蛙的脸部对于模型预测图片为树蛙有较大重要性

在这里插入图片描述

  • 表格、图片数据小结

在这里插入图片描述

四、文本数据 LIME可解释性分析

  • 词袋模型:给定每一个词对应的索引,然后把一句话转化为索引对应的向量 ,作为可解释特征来训练模型

在这里插入图片描述

五、选取有代表性的样本

  • 下图中每一行代表一个样本,每一列代表一个特征
  • 可以观察到样本的特征中f2特征出现了最多次(最重要)
  • 我们选择第二行和第五行样本便可以覆盖掉4/5的特征

在这里插入图片描述

六、LIME的优缺点

1.优点

  • 兼容任意一种机器学习算法
  • 特征重要性:解释、理解、信赖、改进(特征工程)
  • What-if 场景:如果每个月多挣500元,额度是多少
  • 可解释单个样本预测结果、选取代表性样本
  • 可人工设计、构造可解释特征(如前文的超像素分割)

2.缺点

  • 人工设计、构造的“可解释特征”,不一定科学(如何构造科学的可解释特征是LIME最难的点,也是最容易出彩的点)
  • “局部线性”可能无法拟合原模型
  • 不同样本,如何计算邻域样本权重(对于“远”、“近”的定义)
  • 每个待测样本都需训练对应可解释模型,耗时长

七、LIME改进——自适应距离(OptiLIME)

在这里插入图片描述

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值