在本书的第二部分中,我们介绍了一些用于探索和解释模型对单个实例的预测的技术。每一章都专门介绍一种技术。在实践中,这些技术很少单独使用。相反,将每种技术提供的不同见解结合到更全面的概述中会更有信息量。
图 13.1 提供了该想法的图形说明。该图包括应用于泰坦尼克号数据的随机森林模型的四种不同实例级解释技术的结果。有趣的例子是约翰尼 D,一个 8 岁的男孩,他在南安普敦登船,乘坐头等舱旅行,没有父母或兄弟姐妹,票价为 72 英镑。回想一下,目标是预测 Johnny D 的生存概率。
图 13.1 第一行中的图显示了各种变量归因和变量重要性方法的应用结果,例如分解 (BD) 图(第 6 章)、Shapley 值(第 8 章)和局部可解释模型无关解释(LIME,参见第 9 章)。结果一致表明,从预测Johnny D生存概率的角度来看,最重要的解释变量是年龄,性别,阶级和票价。但请注意,加法分解提供的图像可能并不完全正确,因为票价和舱位是相关的,并且年龄和性别的影响之间可能存在相互作用。
图 13.1 第二行中的图显示了 Johnny D 的这四个最重要的解释变量的 ceteris-paribus (CP) 剖面(参见第 10 章)。这些资料表明,增加年龄或将旅行等级更改为二等舱或“餐厅工作人员”会降低预测的生存概率。另一方面,降低票价,将性别更改为女性,或将旅行舱位更改为“甲板船员”将增加概率。
图 13.1 第三行中的图总结了四个解释变量的单变量分布。例如,我们看到,约翰尼·D的机票票价为72英镑,非常高,而泰坦尼克号的乘客中几乎没有孩子。
图 13.1 很好地说明了不同技术提供的观点是相辅相成的,当它们结合起来时,可以更深入地了解模型对感兴趣实例的预测的起源。
虽然结合各种技术进行实例级解释可以提供额外的见解,但值得记住的是,这些技术确实是不同的,它们的适用性可能取决于手头的问题。这就是我们在本章的其余部分讨论的内容。