尽管模型的预测性能总体上令人满意,但模型对某些观测值的预测却非常糟糕。在这种情况下,人们常说“模型不能很好地覆盖输入空间的某些区域”。
例如,拟合某家医院的“典型”患者数据的模型对于来自另一家医院的患者可能表现不佳,这些患者可能具有不同的特征。或者,为评估春假消费贷款风险而开发的模型在圣诞礼物的秋季贷款中可能表现不佳。
因此,在做出重要决策的情况下,有必要检查模型在本地的行为,以处理与感兴趣实例类似的观测值。
在本章中,我们将介绍两种解决此问题的本地诊断技术。第一个是局部保真图,用于评估模型围绕感兴趣的观察值的局部预测性能。第二个是局部稳定性图,用于评估围绕感兴趣观测值的预测的(局部)稳定性。
1、直观了解
假设,对于感兴趣的观测值,我们已经从训练数据中识别出一组具有相似特征的观测值。我们将这些类似的观察称为“邻居”。局部保真图背后的基本思想是将相邻变量的残差分布(即因变量的观测值和预测值之间的差异;参见等式(2.1))与整个训练数据集的残差分布进行比较。
图 12.1 显示了整个数据集的残差直方图,以及一组选定的 25 个邻居的残差直方图,这些邻居是公寓价格数据集的随机森林模型感兴趣的实例。整个数据集的残差分布相当对称,以 0 为中心,表明模型的整体性能合理。另一方面,所选邻居的残差以 500 为中心。这表明,对于与感兴趣的公寓相似的公寓,模型偏向于小于观测值的值(残差为正值,因此平均而言,因变量的观测值大于预测值)。