机器学习可解释性(二) 之 可解释模型

上篇中我们有提到,根据可解释性方法的作用阶段,可以将其分为两类:可解释模型(训练阶段) 与 模型无关方法(预测阶段)。

这篇我们着重介绍可解释模型

什么是可解释模型

进行可解释性分析最简单的方法就是:训练阶段采用具备可解释性的模型。简单一点就是:选择一个本身就容易解释的模型来作为分类器,那模型训练好后,是不是分析它的行为就相对简单一点。

线性回归逻辑回归决策树都是比较常用的可解释模型。

那如何判断一个模型是不是可解释模型呢?主要关注模型的如下三点:

  • 线性:模型中特征和目标之间的关联是线性的,如线性回归。
  • 单调性:具有单调性约束的模型,可确保特征和目标在整个特征范围内始终朝着相同的方向移动,如逻辑回归。
    即特征值的增加要么总是导致目标结果的增加,要么总是导致目标结果的减少。单调性对于模型的解释是有用的,因为它使理解关系变得更容易。
  • 特征交互:模型能够自动进行特征之间的交互来预测目标,如决策树模型。
    特征交互指的是学习两个或多个原始特征之间的交叉组合。交互可以提高预测性能,但太多或太复杂的交互会损害可解释性。

找到了可解释模型之后,如何选择适合自己问题的模型呢?

  • 任务类型:有些模型只处理回归,有些只处理分类,还有一些模型两者都处理。

下面是常用可解释模型的属性及适用任务类型汇总表:
在这里插入图片描述
下面我们着重介绍比较常用的三个模型:线性回归、逻辑回归、决策树。

线性回归

线性模型用于将目标 y 拟合为输入特征 x 的线性加权和,其假设函数如下:
y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β n x n + ϵ y=\beta_0+\beta_1 x_1+\beta_2 x_2+...+\beta_n x_n+\epsilon y=β0+β1x1+β2x2+...+βnxn+ϵ
其中, β j \beta_j βj为模型要学习的特征系数, β 0 \beta_0 β0为截距项, ϵ \epsilon ϵ为误差,即预测结果与真实结果之间的差。

线性模型最大的特点是线性:它使估计过程变得简单,模型也更容易理解。

解释性

下面我们结合实例来解释。给定某自行车租赁公司每日的车辆租赁数量,以及每天的天气和季节信息。用线性回归模型根据历史的天气和天数来预测每天出租的自行车数量。

线性回归模型各特征的权重、预测的标准差和 t-统计量的绝对值如下表所示:
在这里插入图片描述
全局层面:特征重要性

如何解释线性回归模型中权重呢?权重的解释取决于特征的类型。

  • 数值特征 (温度特征 temp) 的解释:当所有其他特征保持不变时,将温度升高 1 摄氏度,租赁自行车的预测数量增加 110.7 。
  • 分类特征 (天气状况特征 weathersit) 的解释:与好天气相比,当下雨、下雪或暴风雨时,租赁自行车的预测数量减少了1901.5;再次假设所有其他特征不变,当天气有雾时,租赁自行车的预测数量比正常天气少了379.4。
    注意:对于分类特征,由于线性回归模型入模前会对分类特征进行编码,为了便于建立变量取值权重的联系,其解释是针对参照取值(编码时被丢弃的取值)而言的。为什么要针对参照取值呢?
    如特征天气状况weathersit,其包含三个取值:GOOD、MISTY、RAIN/SNOW/STORM。上面采用的取值为 weathersitMISTY 和 weathersitRAIN/SNOW/STORM,即编码剔除的参照取值为GOOD:好天气。
    在 GOOD 为参照取值的前提下,假设 weathersit 取值为GOOD时,模型预测的自行车租赁数量为 y y y。则天气变为MISTY时,预测数量为 y − 379.4 y-379.4 y379.4,变化量正好为特征 weathersitMISTY的权重。可以看到,基于参照变量分析可以很方便的将原始特征(weathersit)的取值变化(GOOD–>MISTY)对预测结果的影响(-379.4)跟其权重(weathersitMISTY)联系起来。因为特征取值从参照取值转变为另一取值,对预测结果的影响就是新取值对应特征的权重。
    反过来,如果基于非参照取值进行分析,如记 weathersit 取值为MISTY时,模型预测的自行车租赁数量为 y y y,见下表第二行。则天气变为 RAIN/SNOW/STORM 时,预测数量为 y − 1522.1 y-1522.1 y1522.1,1522.1这个数字虽然可以通过两个权重组合得到,但远不如第一行的数据直观。
GOOD MISTY RAIN/SNOW/STORM
y y y y − 379.4 y-379.4 y379.4 y − 1901.5 y-1901.5 y1901.5
y + 379.4 y+379.4 y+379.4 y y y y − 1522.1 = ( − 1901.5 − ( − 379.4 ) ) y-1522.1=(-1901.5-(-379.4)) y1522.1=(1901.5
  • 5
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值