模型这次可以解释了,利用 Shap 可轻松实现模型输出可视化

解释一个机器学习模型是一个困难的任务,因为我们不知道这个模型在那个黑匣子里是如何工作的。但是解释也是必需的,这样我们可以选择最佳的模型,同时也使其健壮。

Shap 是一个开源的 python 库,用于解释模型。它可以创建多种类型的可视化,有助于了解模型和解释模型是如何工作的。

在本文中,我们将会分享一些 Shap 创建的不同类型的机器学习模型可视化。我们开始吧…

技术提升

本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:mlc2060,备注:来自CSDN +技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:加群

安装所需的库

使用pip安装Shap开始。下面给出的命令可以做到这一点。

pip install shap

导入所需库

在这一步中,我们将导入加载数据、创建模型和创建该模型的可视化所需的库。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import shap
from sklearn.model_selection import train_test_split
import xgboost as xgb

创建模型

在这一步中,我们将创建机器学习模型。在本文中,我将创建一个XGBoost模型,但是你可以选择任何模型。我们将用于此模型的数据集是著名的糖尿病数据集,可从Kaggle下载。

df = pd.read_csv('/content/Diabetes.csv')
features = ['Pregnancies', 'Glucose','BloodPressure','SkinThickness','Insulin','BMI','DiabetesPedigreeFunction','Age']
Y = df['Outcome']
X =  df[features]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 1234)
xgb_model = xgb.XGBRegressor(random_state=42)
xgb_model.fit(X_train, Y_train)

创建可视化

现在我们将为shap创建解释程序,找出模型的shape值,并使用它们创建可视化效果。

explainer = shap.Explainer(xgb_model)
shap_values = explainer(X_test)
1、Bar Plot
shap.plots.bar(shap_values, max_display=10)

2、队列图
shap.plots.bar(shap_values.cohorts(2).abs.mean(0))

3、热图
shap.plots.heatmap(shap_values[1:100])

4、瀑布图
shap.plots.waterfall(shap_values[0]) # For the first observation

5、力图
shap.initjs()
explainer = shap.TreeExplainer(xgb_model)
shap_values = explainer.shap_values(X_test)
def p(j):
    return(shap.force_plot(explainer.expected_value, shap_values[j,:], X_test.iloc[j,:]))
p(0)

6、决策图
shap_values = explainer.shap_values(X_test)[1]
print("The expected value is ", expected_value)
print("The final prediction is ", xgb_model.predict(X_test)[1])
shap.decision_plot(expected_value, shap_values, X_test)

这就是如何使用 Shap 创建与机器学习模型相关的可视化并对其进行分析。

### 如何使用SHAP库中的Bar图进行特征重要性可视化 SHAPSHapley Additive exPlanations)是一种用于解释机器学习模型预测的强大工具。通过计算Shapley值,可以量化每个特征对模型输出的影响程度。其中,`shap.bar_plot()` 是一种常用的可视化方法,用来展示全局或局部的特征重要性。 以下是基于 `SHAP` 库创建 Bar 图来显示特征重要性的具体实现方式: #### 安装必要的库 在开始之前,请确保已安装所需的 Python 库: ```bash pip install shap scikit-learn pandas numpy matplotlib ``` #### 数据准备与模型训练 为了演示目的,这里以经典的鸢尾花数据集为例构建一个简单的随机森林分类器。 ```python import shap from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier import numpy as np import pandas as pd # 加载数据并拆分训练测试集 X, y = load_iris(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练随机森林模型 model = RandomForestClassifier(random_state=42).fit(X_train, y_train) ``` #### 创建 SHAP 解释器对象 对于树型模型(如随机森林),推荐使用 TreeExplainer 来提高效率。 ```python explainer = shap.TreeExplainer(model) # 初始化解释shap_values = explainer.shap_values(X_test) # 计算 Shap 值 ``` #### 绘制特征重要性条形图 利用 `shap.summary_plot()` 或者更具体的 `shap.bar_plot()` 方法绘制特征重要性图表。 ```python # 全局特征重要性条形图 shap.summary_plot(shap_values, X_test, plot_type="bar", feature_names=["Sepal Length", "Sepal Width", "Petal Length", "Petal Width"], show=False) plt.title("Feature Importance using SHAP Bar Plot") # 添加标题 plt.show() ``` 上述代码会生成一张条形图,横轴表示平均绝对 SHAP 值大小,纵轴则列出了各个特征名称及其相对贡献排名[^1]。 如果希望进一步细化到单个类别的特征影响,则可以通过指定类别索引来调整绘图逻辑: ```python class_index = 0 # 针对第一个目标类别 shap.summary_plot(shap_values[class_index], X_test, plot_type="bar", feature_names=["Sepal Length", "Sepal Width", "Petal Length", "Petal Width"]) ``` 此操作允许分别查看不同标签下各变量的作用强度差异情况。 #### 结论 通过以上步骤可以看出,在实际应用过程中,借助于 SHAPbar plot 功能模块可以帮助研究人员直观理解哪些输入属性最显著地决定了最终的结果输出,并为进一步优化建模流程提供了方向指引。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值