机器学习解释(8)DALEX包,第三类-Local-diagnostics Plots

本文介绍了DALEX包中用于本地诊断的两种技术:局部保真图和局部稳定性图,旨在检查模型在特定观测值附近的预测性能和稳定性。局部保真图通过比较邻居和整个数据集的残差分布来评估模型的局部预测性能;局部稳定性图则通过对比解释变量的微小变化对预测的影响来检查模型的局部稳定性。案例分析展示了如何使用这些图表来识别模型的局部不稳定性或偏见。
摘要由CSDN通过智能技术生成

尽管模型的预测性能总体上令人满意,但模型对某些观测值的预测却非常糟糕。在这种情况下,人们常说“模型不能很好地覆盖输入空间的某些区域”。  

例如,拟合某家医院的“典型”患者数据的模型对于来自另一家医院的患者可能表现不佳,这些患者可能具有不同的特征。或者,为评估春假消费贷款风险而开发的模型在圣诞礼物的秋季贷款中可能表现不佳。  

因此,在做出重要决策的情况下,有必要检查模型在本地的行为,以处理与感兴趣实例类似的观测值。

在本章中,我们将介绍两种解决此问题的本地诊断技术。第一个是局部保真图,用于评估模型围绕感兴趣的观察值的局部预测性能。第二个是局部稳定性图,用于评估围绕感兴趣观测值的预测的(局部)稳定性。

 1、直观了解

 假设,对于感兴趣的观测值,我们已经从训练数据中识别出一组具有相似特征的观测值。我们将这些类似的观察称为“邻居”。局部保真图背后的基本思想是将相邻变量的残差分布(即因变量的观测值和预测值之间的差异;参见等式(2.1))与整个训练数据集的残差分布进行比较。  

图 12.1 显示了整个数据集的残差直方图,以及一组选定的 25 个邻居的残差直方图,这些邻居是公寓价格数据集的随机森林模型感兴趣的实例。整个数据集的残差分布相当对称,以 0 为中心,表明模型的整体性能合理。另一方面,所选邻居的残差以 500 为中心。这表明,对于与感兴趣的公寓相似的公寓,模型偏向于小于观测值的值(残差为正值,因此平均而言,因变量的观测值大于预测值)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值