02-Individual Conditional Expectation (ICE)个体条件期望图

Individual Conditional Expectation (ICE)个体条件期望图

参考网址:
[1] Interpretable Machine Learning

本文主要翻译自[1]

1. ICE理论

ICE在每个实例上显示一行,显示当特性发生变化时实例的预测如何变化。

一个特性的平均效果的PDP是一种全局方法,因为它不关注特定的实例,而是关注总体平均值。对应于单个数据实例的PDP称为ICE。ICE图显示了预测对每个实例的特征的依赖性,结果是每个实例一行,而整个PDP只有一行。PDP是ICE中线的平均值。一条线(和一个实例)的值可以通过保持所有其他特征不变来计算,通过用网格中的值替换特征值来创建此实例的变体,并使用黑盒模型对这些新创建的实例进行预测。结果是具有来自网格的特征值和相应预测的实例的一组点。

PDP可以掩盖由交互创建的异构关系。PDP可以显示特征和预测之间的平均关系。只有当计算PDP的特征与其他特征之间的交互较弱时,这种方法才能很好地工作。在相互作用的情况下,ICE图将提供更多的见解。

一个更正式的定义是:在ICE图中,对于 { ( x S ( i ) , x C ( i ) ) } i = 1 N \{(x_{S}^{(i)},x_{C}^{(i)})\}_{i=1}^N {(xS(i),xC(i))}i=1N中的每一个例子,曲线 f ^ S ( i ) \hat{f}_S^{(i)} f^S(i)被绘制在 x S ( i ) x^{(i)}_{S} xS(i)上,而 x C ( i ) x^{(i)}_{C} xC(i)保持不变。

2. ICE例子

让我们回到 宫颈癌的数据集,看看每个实例的预测如何与特征“Age”相关联。我们将分析一个随机森林,该森林在给定风险因素的情况下预测女性患癌症的概率。在 PDP 中,我们已经看到癌症概率在 50 岁左右增加,但数据集中的每个女性都是这样吗?ICE 图显示,对于大多数女性而言,年龄效应遵循 50 岁时增加的平均模式,但也有一些例外:对于少数在年轻时具有高预测概率的女性,预测的癌症概率不会随年龄变化太大。
在这里插入图片描述
按年龄划分的宫颈癌概率的 ICE 图。 每条线代表一个女性。 对于大多数女性来说,随着年龄的增长,预测的癌症概率会增加。 对于一些预测癌症概率高于 0.4 的女性,预测在更高的年龄变化不大。

下图显示了自行车租赁预测的 ICE 图。 底层预测模型是随机森林。
在这里插入图片描述
按天气条件预测自行车租赁的 ICE 图。 可以观察到与PDP中相同的效果。

所有曲线似乎都遵循相同的路线,因此没有明显的相互作用。 这意味着 PDP 已经很好地总结了显示的特征和预测的自行车数量之间的关系

3. Centered ICE

ICE 图存在一个问题:有时很难判断 ICE 曲线是否因人而异,因为它们开始于不同的预测。一个简单的解决方案是将曲线集中在特征中的某个点,并仅显示与该点的预测差异。 结果图称为中心 ICE 图 (c-ICE)。 将曲线锚定在特征的下端是一个不错的选择。 新曲线定义为:
f ^ c e n t ( i ) = f ^ ( i ) − 1 f ^ ( x a , x C ( i ) ) \hat{f}_{cent}^{(i)}=\hat{f}^{(i)}-\mathbf{1}\hat{f}(x^{a},x^{(i)}_{C}) f^cent(i)=f^(i)1f^(xa,xC(i))

在这里,
1 \mathbf{1} 1具有适当维数(1或2)的1的向量?
f ^ \hat{f} f^是训练好的模型;
x a x^{a} xa锚点anchor point,通常选择观察值的最小值或最大值做为锚点。

例如,取年龄的宫颈癌 ICE 图,并将线集中在观察到的最年轻的年龄上:
在这里插入图片描述
按年龄预测癌症概率的中心 ICE 图。 线在 14 岁时固定为 0。与 14 岁相比,大多数女性的预测保持不变,直到 45 岁时,预测概率增加。

让我们看一下自行车租赁预测的中心 ICE 图:
在这里插入图片描述
按天气条件预测的自行车数量的Centered ICE 图。这些线显示了预测与各自特征值处于其观察到的最小值的预测相比的差异。

4. Derivative ICE Plot

另一种在视觉上更容易发现异质性(heterogeneity)的方法是查看预测函数相对于特征的各个导数。结果图称为derivative ICE plot (d-ICE)。函数(或曲线)的导数告诉你变化是否发生以及发生的方向。 使用d-ICE,很容易发现特征值的范围,其中(至少某些)实例的black box预测会发生变化。如果分析的特征 x S x_S xS和其他特征 x C x_C xC 之间没有交互作用,则预测函数可以表示为:
f ^ ( x ) = f ^ ( x S , x C ) = g ( x S ) + h ( x C ) , with δ f ^ ( x ) δ x S = g ′ ( x S ) \hat{f}(x)=\hat{f}(x_S,x_C)=g(x_S)+h(x_C),\quad\text{with}\quad\frac{\delta\hat{f}(x)}{\delta{}x_S}=g'(x_S) f^(x)=f^(xS,xC)=g(xS)+h(xC),withδxSδf^(x)=g(xS)

如果没有交互作用,所有实例的各个偏导数应该是相同的。如果它们不同,则是由于相互作用,它在 d-ICE 图中变得可见。除了显示相对于 S 中特征的预测函数导数的单个曲线之外,显示导数的标准偏差有助于突出 S 中特征中的区域以及估计导数的异质性。导数 ICE 图需要很长时间来计算,而且相当不切实际。

5. Advantages

  • ICE 曲线比 PDP 更直观易懂。 如果我们改变感兴趣的特征,一条线代表对一个实例的预测。
  • 与部分依赖图不同,ICE 曲线可以揭示异质关系(heterogeneous relationships)。

6. Disadvantages

  • ICE 曲线只能有意义地显示一个特征,因为这两个特征需要绘制多个重叠曲面,而您在图中看不到任何内容
  • ICE 曲线与 PDP 存在相同的问题:如果感兴趣的特征与其他特征相关,那么根据联合特征分布,线条中的某些点可能是无效数据点。
  • 如果绘制了许多 ICE 曲线,则绘图可能会变得过于拥挤,您将看不到任何内容。 解决方案:要么为线条添加一些透明度,要么仅绘制部分线条。
  • 在 ICE 图中,查看平均值可能并不容易。 一个简单的解决方案:将单个条件期望曲线与部分依赖图相结合。
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值