01-Partial Dependence Plot(PDP)部分依赖图

Partial Dependence Plot(PDP)部分依赖图

参考网址:
[1] Interpretable Machine Learning

1. PDP理论

1.1 数值特征

部分依赖图显示了一个或两个特征对ML模型预测结果的边际影响。部分依赖图可以显示目标和特征之间的关系是线性的、单调的还是更复杂的。例如,当应用于线性回归模型时,部分相关性图始终显示线性关系。

用于回归的部分依赖函数定义:
f ^ x S ( x S ) = E x C [ f ^ ( x S , x C ) ] = ∫ f ^ ( x S , x C ) d P ( x C ) \hat{f}_{x_S}(x_S)=E_{x_C}\left[\hat{f}(x_S,x_C)\right]=\int\hat{f}(x_S,x_C)d\mathbb{P}(x_C) f^xS(xS)=ExC[f^(xS,xC)]=f^(xS,xC)dP(xC)
x S x_S xS是部分依赖函数要绘制的特征;通常集合S中仅有一个到两个特征;S中的feature(s)是我们希望了解其对预测的影响的特征。
x C x_C xC是ML模型 f ^ \hat{f} f^使用的其他特征,C是S的补集;
特征向量 x S x_S xS x C x_C xC的组合构成了总特征空间x。

Partial Dependence的工作原理是,在集合C中的特征分布上边缘化机器学习模型的输出,以便该函数显示我们感兴趣的集合S中的特征与预测结果之间的关系。通过边缘化其他特性,我们得到的函数只依赖于S中的特性,包括与其他特性的交互。

通过计算训练数据中的平均值来估计部分函数 f ^ x S \hat{f}_{x_S} f^xS,也称为Monte Carlo方法:
f ^ x S ( x S ) = 1 n ∑ i = 1 n f ^ ( x S , x C ( i ) ) \hat{f}_{x_S}(x_S)=\frac{1}{n}\sum_{i=1}^n\hat{f}(x_S,x^{(i)}_{C}) f^xS(xS)=n1i=1nf^(xS,xC(i))

Partial Function告诉我们,对于给定特征集合S的value(s),预测的平均边际效应是什么。在这个公式中, x C ( i ) x^{(i)}_{C} xC(i)是数据集中我们不感兴趣的特性的实际特征值,n是数据集中的实例数。PDP的一个假设是C中的特征与S中的特征不相关。如果违背了这一假设,那么部分依赖图计算的平均值将包含非常不可能或甚至不可能的数据点(见缺点)。

对于ML模型输出概率的分类,PDP 显示给定 S 中 feature(s) 不同值的某个类别的概率。处理多个类的一个简单方法是画一条线或绘制每个类。\

PDP 是一种全局方法:该方法考虑所有实例并给出关于特征与预测结果的全局关系的声明。

1.1 分类特征

到目前为止,我们只考虑了数值特征。 对于分类特征,部分依赖很容易计算。 对于每个类别,我们通过强制所有数据实例具有相同的类别来获得 PDP 估计。例如,如果我们查看自行车租赁数据集并对季节的部分依赖图感兴趣,我们会得到 4 个数字,每个季节一个。为了计算“夏天”的值,我们将所有数据实例的季节替换为“夏天”并对预测进行平均。

2. PDP例子

实际上,特征集 S 通常只包含一个特征或最多包含两个,因为一个特征产生 2D 图,而两个特征产生 3D 图。 除此之外的一切都非常棘手。即使是在2D纸上或显示器上使用3D也很有挑战性。

让我们回到回归示例,在该示例中,我们预测在给定日期将租用的自行车数量。首先我们拟合一个机器学习模型,然后我们分析部分依赖关系。 在这种情况下,我们拟合了一个随机森林来预测自行车的数量,并使用部分依赖图来可视化模型学习到的关系。 下图显示了天气特征对预测自行车数量的影响。

自行车数量预测模型以及温度、湿度和风速的 PDP。 最大的差异体现在温度上。 天气越热,租用的自行车就越多。 这一趋势上升到 20 摄氏度,然后趋于平缓并在 30 摄氏度时略微下降。x 轴上的标记表示数据分布。

该模型预测,对于温暖但不太热的天气,租赁自行车的平均数量会很高。当湿度超过60%时,潜在的骑行者越来越不愿意租用自行车。此外,风越大,喜欢骑自行车的人就越少,这是有道理的。有趣的是,当风速从25公里/小时增加到35公里/小时时,预测的自行车租赁数量并不会下降,但没有太多的训练数据,所以机器学习模型可能无法学习到这个范围的有意义的预测。至少在直觉上,我认为自行车的数量会随着风速的增加而减少,尤其是在风速非常大的时候。

为了说明具有分类特征的部分依赖图,我们检查了季节特征对预测的自行车租赁的影响。
12121212
我们还计算了宫颈癌分类的部分依赖性。 这次我们拟合了一个随机森林,根据风险因素来预测女性是否可能患上宫颈癌。 我们计算并可视化癌症概率对随机森林不同特征的部分依赖:
在这里插入图片描述
基于使用激素避孕药的年龄和年份的癌症概率 PDP。 对于年龄,PDP 显示概率在 40 岁之前较低,并在 40 岁之后增加。 服用激素避孕药的时间越长,预测的癌症风险就越高,尤其是在 10 年后。 对于这两个特征,没有多少具有大值的数据点可用,因此这些区域的 PD 估计不太可靠。

我们还可以同时可视化两个特征的部分依赖关系:
在这里插入图片描述
癌症概率的 PDP 与年龄和怀孕次数的相互作用。 该图显示了 45 岁时癌症概率的增加。对于 25 岁以下的女性,与怀孕 0 次或超过 2 次的女性相比,怀孕 1 次或 2 次的女性预测的癌症风险较低。 但是在得出结论时要小心:这可能只是相关关系而不是因果关系!

3. PDP优点

  • 部分依赖图的计算很直观:如果我们强制所有数据点假设该特征值,则特定特征值的部分依赖函数表示平均预测。根据我的经验,外行通常很快就能理解 PDP 的概念。
  • 如果您计算 PDP 的特征与其他特征不相关,那么 PDP 完美地代表了该特征如何平均影响预测。在不相关的情况下,解释很清楚:部分依赖图显示了当第 j 个特征发生变化时数据集中的平均预测如何变化。当特征相关时会更复杂,另见缺点。
  • 部分依赖图很容易实现。
  • 部分依赖图的计算具有因果解释。我们干预一个特征并测量预测的变化。这样做时,我们会分析特征与预测之间的因果关系。这种关系是模型的因果关系——因为我们明确地将结果建模为特征的函数——但不一定适用于现实世界!

4. PDP缺点

  • 部分依赖函数中显示的最大特征数是两个。这不是 PDP 的错,而是二维表示(纸或屏幕)的错,也是我们无法想象超过 3 维的错。
  • 一些 PD 图不显示特征分布。省略分布可能会产生误导,因为您可能会过度解释几乎没有数据的区域。通过显示 rug(x 轴上数据点的指标)或直方图可以轻松解决此问题。
  • 独立性假设是 PD 图的最大问题 假设为其计算部分依赖的特征与其他特征不相关。例如,假设您想根据人的体重和身高预测他的步行速度。对于特征之一的部分依赖,例如身高,我们假设其他特征(体重)与身高无关,这显然是错误的假设。对于特定高度(例如 200 cm)的 PDP 计算,我们对重量的边际分布进行平均,其中可能包括低于 50 kg 的重量,这对于 2 米的人来说是不现实的。换句话说:当特征相关时,我们会在特征分布的实际概率非常低的区域创建新的数据点(例如,不太可能有人身高 2 米但体重不到 50 公斤)。
  • 3
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: plot_partial_dependence是Python中的一个函数,用于绘制偏依赖图。它的参数包括模型、特征、特征索引、目标类别、网格数量、网格范围等。通过调整这些参数,可以绘制出不同的偏依赖图,帮助我们更好地理解模型的特征重要性和预测结果。 ### 回答2: plot_partial_dependence是一个函数参数,用于绘制偏依赖图。偏依赖图是一种可视化工具,用于描述机器学习模型中特定特征对预测结果的影响程度。 在sklearn中,plot_partial_dependence函数用于绘制偏依赖图。它接受以下参数: - estimator:一个训练好的机器学习模型,如分类器或回归器。 - X:特征矩阵,表示用于预测的特征值。 - features:要绘制偏依赖图的特征索引列表。 - feature_names:特征的名称列表,用于标记坐标轴。 - target:目标类的索引,仅适用于多类分类问题。 - ax:用于绘制形的轴对象。 plot_partial_dependence函数会根据给定的特征索引和特征值,在给定的模型上计算并绘制偏依赖图。偏依赖图展示了特征对预测结果的影响程度,通常以二维形的形式呈现。 通过绘制偏依赖图,我们可以更好地理解特征与预测结果之间的关系。例如,对于一个回归模型,我们可以通过绘制某个特征的偏依赖图,来观察该特征值变化时预测结果的变化情况。这有助于我们理解特征对模型预测的贡献。 总之,plot_partial_dependence参数是用于绘制偏依赖图的函数参数,可以通过可视化特征与预测结果之间的关系来帮助我们理解机器学习模型的特征重要性。 ### 回答3: plot_partial_dependence是Matplotlib的一个函数,用于可视化机器学习模型的偏依赖关系。它通常与sklearn中的partial_dependence函数一起使用。 partial_dependence函数用于计算给定模型的特征的偏依赖关系。偏依赖关系描述了模型对于一个或多个特征的响应的变化情况。然后,plot_partial_dependence函数可以使用这些偏依赖关系来创建一个可视化表。 plot_partial_dependence函数通过绘制给定特征对于预测响应的影响的表来帮助我们理解模型是如何利用特征的。它可以绘制出特征与响应之间的关系,展示特征对于模型预测的重要性和影响程度。 使用plot_partial_dependence时,我们需要指定模型、要分析的特征和要观察的观测值。函数将生成一个表,其中 x 轴代表特征的取值范围,y 轴代表模型的响应。此外,函数还可以绘制出置信区间,以反映预测的可靠性。 通过观察生成的表,我们可以更好地理解模型如何使用特征进行预测。我们可以直观地看到特征与模型响应的关系,从而可以获得有关特征对模型输出的影响程度的洞察。这有助于我们了解模型的复杂性和特征的重要性,并帮助我们进行特征选择和模型优化。 总之,plot_partial_dependence函数是一个强大的工具,可以帮助我们可视化机器学习模型的偏依赖关系,从而更好地理解模型如何利用特征进行预测。通过其表可以获得对特征的重要性和影响程度的直观认识,为模型优化和解释提供有价值的信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值