SHAP值是个什么值?

SHAP 值是个什么值?

起初,我们知道SHAP值代表了变量对于结局变量的贡献程度,然而,在做了一些SHAP分析之后,感觉有一些SHAP值还是有一些难以理解的地方,比如,为什么有负值?SHAP值为0 时曲线上点所代表的含义是什么?

1. SHAP值是个差值

The Shapley value can be misinterpreted. The Shapley value of a feature value is not the difference of the predicted value after removing the feature from the model training. The interpretation of the Shapley value is: Given the current set of feature values, the contribution of a feature value to the difference between the actual prediction and the mean prediction is the estimated Shapley value.[1]
翻译:某特征的SHAP值不是移除该特征(前)后预测值的差,而是 在目前所有特征值的设定下,某特征值对于实际预测值和平均与预测值的差的贡献。
[1]https://christophm.github.io/interpretable-ml-book/shapley.html

对这句话的理解要分回归和分类两种情况,计算SHAP值的时候会有一个基础值,就是平均预测值。

  • 对于回归模型来说,SHAP值是预测值和平均预测值之间的差值。如果说计算SHAP值的结局变量是连续性变量,比如房价,那么SHAP值尺度和单位和房价是相同的。SHAP值为0的时候,该特征值不能对预测值产生影响,SHAP值大于0 ,代表预测值高于平均预测值的程度,SHAP值小于0,代表预测值低于平均预测值的程度。
  • 对于分类模型,SHAP值反映的是概率的变化。在R语言的shapviz包中,默认的不是概率差值,而是对数几率(log odd,也称logit),这就是为什么SHAP值看着不像概率,因为作者认为这个函数更能反映概率的变化,但是提供了转换的方法。这时候SHAP为0, 代表事件发生的概率是50%V.S.50%,SHAP值大于0,可以解释为发生某结局的概率增加,SHAP小于0,代表发生相对结局的概率增加。

几率,更准确的说,成功的几率,被定义为成功的概率/失败的概率。明天晴天的概率为80%,非晴天的概率为20%,则几率为: 0.8/0.2=4 。Odds的(自然)对数就是 Log Odds, 也称为Logit。若成功的概率为50%,失败的概率也是50%, Odds等于1,对数几率(Log odds)为0。[2]
[2] https://zhuanlan.zhihu.com/p/445485992

2. SHAP值的特点

The Shapley value is the only attribution method that satisfies the properties Efficiency, Symmetry, Dummy and Additivity, which together can be considered a definition of a fair payout.[1]
翻译:有效、一致、哑性和可加四个特性
[1]https://christophm.github.io/interpretable-ml-book/shapley.html

  • 有效,SHAP值是可以反映特征贡献的;
  • 一致,是两个不同变量之间的贡献是可比的;
  • 哑性,指的是如果一个特征的SHAP值为0,代表其不会改变预测值;所以,SHAP值的正负代表变化的方向不同。
  • 可加,指的是变量间的贡献程度是可以相加的。

3. SHAP值注意事项

  • 特征之间的共线性会影响SHAP值的计算,要求是相互独立的。

以上所查询的信息基本上能解答自己在理解SHAP值的一些困惑,有不准确的地方还请大家指正。

SHAPSHapley Additive exPlanations)是一种用于解释机器学习模型预测结果的方法。它通过计算每个特征对预测结果的贡献度,来解释模型的决策过程。SHAP的计算基于合作博弈论中的Shapley,旨在公平地分配特征对预测结果的贡献。 如果你发现SHAP只显示第一个特征,可能有以下几个原因: 1. **数据问题**:检查你的数据是否正确加载,并且所有特征都包含在计算中。 2. **模型问题**:确保你使用的模型支持多特征的SHAP计算。有些模型可能只支持部分特征的SHAP计算。 3. **代码问题**:检查你的代码是否正确地计算和显示了所有特征的SHAP。确保你没有在代码中限制只显示第一个特征。 4. **库版本问题**:确保你使用的SHAP库版本是最新的,有时候旧版本可能存在bug。 以下是一个简单的示例代码,展示如何计算和显示所有特征的SHAP: ```python import shap import numpy as np import xgboost as xgb # 创建一个简单的XGBoost模型 X, y = shap.datasets.boston() model = xgb.XGBRegressor().fit(X, y) # 创建一个TreeExplainer对象 explainer = shap.TreeExplainer(model) shap_values = explainer.shap_values(X) # 打印所有特征的SHAP print("SHAP values for all features:") print(shap_values) # 可视化所有特征的SHAP shap.summary_plot(shap_values, X) ``` 在这个示例中,我们使用XGBoost模型和Boston房价数据集来计算SHAP,并通过`shap.summary_plot`函数可视化所有特征的SHAP
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医学AppMatrix

文中代码请大家随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值