SHAP 值是个什么值?
起初,我们知道SHAP值代表了变量对于结局变量的贡献程度,然而,在做了一些SHAP分析之后,感觉有一些SHAP值还是有一些难以理解的地方,比如,为什么有负值?SHAP值为0 时曲线上点所代表的含义是什么?
1. SHAP值是个差值
The Shapley value can be misinterpreted. The Shapley value of a feature value is not the difference of the predicted value after removing the feature from the model training. The interpretation of the Shapley value is: Given the current set of feature values, the contribution of a feature value to the difference between the actual prediction and the mean prediction is the estimated Shapley value.[1]
翻译:某特征的SHAP值不是移除该特征(前)后预测值的差,而是 在目前所有特征值的设定下,某特征值对于实际预测值和平均与预测值的差的贡献。
[1]https://christophm.github.io/interpretable-ml-book/shapley.html
对这句话的理解要分回归和分类两种情况,计算SHAP值的时候会有一个基础值,就是平均预测值。
- 对于回归模型来说,SHAP值是预测值和平均预测值之间的差值。如果说计算SHAP值的结局变量是连续性变量,比如房价,那么SHAP值尺度和单位和房价是相同的。SHAP值为0的时候,该特征值不能对预测值产生影响,SHAP值大于0 ,代表预测值高于平均预测值的程度,SHAP值小于0,代表预测值低于平均预测值的程度。
- 对于分类模型,SHAP值反映的是概率的变化。在R语言的shapviz包中,默认的不是概率差值,而是对数几率(log odd,也称logit),这就是为什么SHAP值看着不像概率,因为作者认为这个函数更能反映概率的变化,但是提供了转换的方法。这时候SHAP为0, 代表事件发生的概率是50%V.S.50%,SHAP值大于0,可以解释为发生某结局的概率增加,SHAP小于0,代表发生相对结局的概率增加。
几率,更准确的说,成功的几率,被定义为成功的概率/失败的概率。明天晴天的概率为80%,非晴天的概率为20%,则几率为: 0.8/0.2=4 。Odds的(自然)对数就是 Log Odds, 也称为Logit。若成功的概率为50%,失败的概率也是50%, Odds等于1,对数几率(Log odds)为0。[2]
[2] https://zhuanlan.zhihu.com/p/445485992
2. SHAP值的特点
The Shapley value is the only attribution method that satisfies the properties Efficiency, Symmetry, Dummy and Additivity, which together can be considered a definition of a fair payout.[1]
翻译:有效、一致、哑性和可加四个特性
[1]https://christophm.github.io/interpretable-ml-book/shapley.html
- 有效,SHAP值是可以反映特征贡献的;
- 一致,是两个不同变量之间的贡献是可比的;
- 哑性,指的是如果一个特征的SHAP值为0,代表其不会改变预测值;所以,SHAP值的正负代表变化的方向不同。
- 可加,指的是变量间的贡献程度是可以相加的。
3. SHAP值注意事项
- 特征之间的共线性会影响SHAP值的计算,要求是相互独立的。
以上所查询的信息基本上能解答自己在理解SHAP值的一些困惑,有不准确的地方还请大家指正。