笔者把自己这篇原本发布在github page上的文章迁移到了这里,原github page网址:https://iceflameworm.github.io/2019/09/01/shap-values/
很多指标都是在总体样本上衡量特征的影响,但是针对某一特定样本,该如何表示各个特征对其预测结果的影响呢?针对某一样本的预测结果,SHAP值通过跟基线结果作比较,得出各个特征的取值分别对预测结果的影响程度。
这是第四节:SHAP VALUES
用途
SHAP值(SHapley Additive exPlanations的缩写)从预测中把每一个特征的影响分解出来。可以把它应用到类似于下面的场景当中:
- 模型认为银行不应该给某人放贷,但是法律上需要银行给出每一笔拒绝放贷的原因。
- 医务人员想要确定对不同的病人而言,分别是哪些因素导致他们有患某种疾病的风险,这样就可以因人而异地采取针对性的卫生干预措施,直接处理这些风险因素。
工作原理
SHAP值通过与某一特征取基线值时的预测做对比,来解释该特征取某一特定值的影响。
可以继续用排列重要性和部分依赖图中用到的例子进行解释。
我们对一个球队会不会赢得“最佳球员”称号进行了预测。
我们可能会有以下疑问:
- 预测的结果有多大的程