特征重要性与shap值

最新推荐文章于 2024-06-02 23:07:11 发布

Chercheer

最新推荐文章于 2024-06-02 23:07:11 发布

阅读量1.1w

点赞数 6

分类专栏：机器学习 python 文章标签：数据分析机器学习 python

本文链接：https://blog.csdn.net/cherdw/article/details/107545623

版权

本文探讨了在机器学习模型中，尤其是Xgboost中，特征重要性和Shap值如何帮助理解模型决策过程。特征重要性通过不同指标（如权重、增益、覆盖）提供变量影响力，而Shap值则进一步揭示了特征影响的正负性。通过Shap值的可视化和部分依赖图，可以更深入地分析样本特征与预测结果之间的关系，这对于提高模型的可解释性和应用在风控领域的价值至关重要。

摘要由CSDN通过智能技术生成

在模型的训练过程中，往往会需求更加优异的模型性能指标如准确率、召回等，但在实际生产中，随着模型上线使用产生衰减，又需要快速定位问题进行修复，因此了解模型如何运作、哪些特征起到了关键作用有着重要意义。同时，可解释的模型能够让业务方也就是模型使用者，能够更加信任和熟悉模型的决策过程。尤其在风控领域，基于金融机构的监管层要求以及信贷业务的稳健发展方面，都需要在信贷业务流程中部署的风控模型具有良好的解释性。

机器学习效果往往会优于传统的评分卡模型，相对于可以对每个入模变量赋予权重的逻辑回归方法来说，机器学习的训练和部署，相当于封装在一个黑匣子里，输入变量得出预测概率值。因此我们想要保留机器学习的优越性能，尝试赋予模型可解释性，以寻求一个平衡点。Xgboost是最我们最常使用的机器学习模型，训练完模型到底是哪些变量起到了重要的作用，又是怎么影响预测结果的呢？尝试从变量重要性，结合shap值去进行解释。

特征重要性

xgboost可以通过get_fscore获取特征重要性，可以查看官网上的API使用方法：

get_score(fmap='', importance_type='weight')

Get feature importance of each feature. Importance type can be defined as:

‘weight’: the number of times a feature is used to split the data across all trees.
‘gain’: the average gain across all splits the feature is used in.
‘cover’: the average coverage across all splits the feature is used in.
‘total_gain’: the total gain across all splits the feature is used in.
‘total_cover’: the total coverage across all splits the feature is used in.

# 计算变量的所有特征重要性
importance_all = pd.DataFrame()
for importance_type in ('weight', 'gain', 'cover', 't

最低0.47元/天解锁文章

Chercheer

关注

6
点赞
踩
82

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录