特征重要性与shap值

本文探讨了在机器学习模型中,尤其是Xgboost中,特征重要性和Shap值如何帮助理解模型决策过程。特征重要性通过不同指标(如权重、增益、覆盖)提供变量影响力,而Shap值则进一步揭示了特征影响的正负性。通过Shap值的可视化和部分依赖图,可以更深入地分析样本特征与预测结果之间的关系,这对于提高模型的可解释性和应用在风控领域的价值至关重要。
摘要由CSDN通过智能技术生成

在模型的训练过程中,往往会需求更加优异的模型性能指标如准确率、召回等,但在实际生产中,随着模型上线使用产生衰减,又需要快速定位问题进行修复,因此了解模型如何运作、哪些特征起到了关键作用有着重要意义。同时,可解释的模型能够让业务方也就是模型使用者,能够更加信任和熟悉模型的决策过程。尤其在风控领域,基于金融机构的监管层要求以及信贷业务的稳健发展方面,都需要在信贷业务流程中部署的风控模型具有良好的解释性。

机器学习效果往往会优于传统的评分卡模型,相对于可以对每个入模变量赋予权重的逻辑回归方法来说,机器学习的训练和部署,相当于封装在一个黑匣子里,输入变量得出预测概率值。因此我们想要保留机器学习的优越性能,尝试赋予模型可解释性,以寻求一个平衡点。Xgboost是最我们最常使用的机器学习模型,训练完模型到底是哪些变量起到了重要的作用,又是怎么影响预测结果的呢?尝试从变量重要性,结合shap值去进行解释。

特征重要性

xgboost可以通过get_fscore获取特征重要性,可以查看官网上的API使用方法:

get_score(fmap='', importance_type='weight')

Get feature importance of each feature. Importance type can be defined as:

  • ‘weight’: the number of times a feature is used to split the data across all trees.
  • ‘gain’: the average gain across all splits the feature is used in.
  • ‘cover’: the average coverage across all splits the feature is used in.
  • ‘total_gain’: the total gain across all splits the feature is used in.
  • ‘total_cover’: the total coverage across all splits the feature is used in.
# 计算变量的所有特征重要性
importance_all = pd.DataFrame()
for importance_type in ('weight', 'gain', 'cover', 't
要使用`shap.dependence_plot`绘制图,需要先导入`shap`模块,并确保已经安装了`matplotlib`和`numpy`模块。 `shap.dependence_plot`的语法如下: ```python shap.dependence_plot(ind, shap_values, features, feature_names=None, display_features=None, interaction_index=None, xlabel=None, ylabel=None, title=None, xmin=None, xmax=None, ax=None, show=True) ``` 其中,参数含义如下: - `ind`:要绘制依赖关系图的特征的索引。 - `shap_values`:SHAP,可以是单个实例的SHAP,也可以是多个实例的SHAP。 - `features`:特征矩阵,可以是单个实例的特征矩阵,也可以是多个实例的特征矩阵。 - `feature_names`:特征名称,默认为None。 - `display_features`:展示的特征矩阵,可以是单个实例的特征矩阵,也可以是多个实例的特征矩阵,默认为None。 - `interaction_index`:交互特征的索引,可以是None、整数或者元组,默认为None。 - `xlabel`:x轴标签,默认为None。 - `ylabel`:y轴标签,默认为None。 - `title`:图像标题,默认为None。 - `xmin`:x轴最小,默认为None。 - `xmax`:x轴最大,默认为None。 - `ax`:用于绘制图像的matplotlib.axes.Axes对象,默认为None。 - `show`:是否调用matplotlib的show函数显示图像,默认为True。 举个例子,假设我们有一个特征矩阵`X`、一个目标变量`y`和一个训练好的模型`model`,我们可以使用以下代码绘制第0个特征与目标变量之间的依赖关系图: ```python import shap import matplotlib.pyplot as plt import numpy as np # 计算SHAP explainer = shap.Explainer(model.predict, X) shap_values = explainer(X) # 绘制依赖关系图 shap.dependence_plot(0, shap_values, X, feature_names=['feature0']) plt.show() ``` 这将绘制出第0个特征与目标变量之间的依赖关系图。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值