数据标准化以后，怎么画SHAP图

最新推荐文章于 2025-03-14 15:13:09 发布

写好三分地

最新推荐文章于 2025-03-14 15:13:09 发布

阅读量2.1k

点赞数

文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/qq_42738639/article/details/130444449

版权

SHAP图，是一种根据博弈论方法来解释机器学习模型的方法
具体可以参考：https://zhuanlan.zhihu.com/p/441302127

一直都是用的未标准化的数据去训练模型，并且画dependence plot这些。
但是今天用了标准化后的数据训练模型，然后画dependence plot的时候，得到了下图这种图，显然是不对的。于是简单研究了shap返回结果
在这里插入图片描述

#x_trains_M是x_train数据标准化后的结果
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(x_trains_M)  # 传入特征矩阵X，计算SHAP值
shap_interaction_values = explainer.shap_interaction_values(x_trains_M)
y_base = explainer.expected_value
fig = shap.summary_plot(shap_values, x_trains_M, max_display = 30, show = False)

类似summary_plot，不会太受标准化的影响，但是dependence plot是在反映特征值对结果影响，因此特征值被标准化后，会导致横轴发生变化。打开上述代码生成的shap_values 和shap_interaction_values ，会发现其实每一列y是与特征对应的，每一行x也是与输入特征对应的，因此[x, y]对应着训练集中的一个特征的值。
在这里插入图片描述
所以要用标准化前的数据与标准化后得到的shap_values，进行散点图绘图，即可得到dependence plot。此处sofa代表第一个特征，x_trains是标准化前的数据

plt.figure()
plt.scatter(x_trains["sofa"], shap_values[:,0])
plt.axhline(y=0, color="red",linestyle='-')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

写好三分地

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

随机森林+SHAP：如何制作好看的SHAP分析图—分组绘制

qq_63277082的博客

02-21

1776

RF+SHAP分析是一种可解释分析的机器学习技术，可以量化特征重要性等，但是原始的SHAP分析图容易出现较为杂乱，信息单一的情况，下面分享一下我常用的SHAP分析图的绘制代码

四个自定义 SHAP 图

茶桁专栏

08-20

1799

超越 Python 包，创建 SHAP 值的定制可视化SHAP 值是了解模型如何进行预测的绝佳工具。SHAP 包提供了许多可视化效果，使这个过程更加简单。话虽如此，我们不必完全依赖这个包。我们可以通过创建自己的 SHAP 图来进一步了解模型的工作原理。在本文中，我们将解释四个定制的 SHAP 图以及您可以从中学到什么。您可以在GitHub上找到用于创建这些图的代码。讨论的图表之一是图 1 中的瀑布图。这是一种可视化单个预测的 SHAP 值的好方法。模型做出的每个预测都会有自己的瀑布图。

1 条评论您还未登录，请先登录后发表或查看评论

三分类SHAP图（特征标准化之后怎么画）

芝士不禁脑汁

11-23

6614

画三分类SHAP图出错今天干了一件很蠢的事情，还耽误了很多时间，特此记录一下我将数据标准化之后训练模型，然后将未标准化的数据作为输入计算了SHAP值，得出的结果显然不对。类似于下图这种但是如果画图时将X_test输入作为参数，那么横坐标就对应的是标准化之后的值，所以我们可以先对X_test未经标准化时候制作一个copy版本X_test1，然后作为画图时候参数输入就可以正确画出SHAP图的横坐标了，也可以得到我们想要的信息。另外三分类shap values得到一个3维数据，有时候使用起来需要切片，比如

SHAP值理论（二）

最新发布

qq_43710593的博客

03-14

561

颜色编码会显示一定的交互性，比如如果颜色特征的变化导致 SHAP 值的变化趋势改变，说明这两个特征之间存在交互作用，也会显示出一定的交互趋势，但是感觉不如直接看交互效应，如果交互效应很大，看这个图可能还有点用。是 SHAP（SHapley Additive exPlanations）工具包中的一种可视化方法，用于分析。SHAP Dependence Plot没有展示交互作用，主要获取的还是正/负向影响、非线性。有点分不太清这两个图的区别。以及该特征与其他特征的。

数据标准化后画盒图和平行坐标图

zhchou8972的博客

09-01

371

import pandas as pd import matplotlib.pylot as plt from pylab import * from math import exp summary=data.describe() data_normalized=data ncols=len(data_normalized.columns) nrows=len(data_normalized...

基线理解_SHAP的变量解释性绘图理解与应用

fulk6667g78o8的专栏

01-08

3万+

SHAP的理解与应用 SHAP有两个核心，分别是shap values和shap interaction values，在官方的应用中，主要有三种，分别是force plot、summary plot和dependence plot，这三种应用都是对shap values和shap interaction values进行处理后得到的。下面会介绍SHAP的官方示例，以及我个人对SHAP的理解和应用。 1. SHAP官方示例首先简单介绍下shap values和shap inte...

MATLAB绘图初探

sharpeer的博客

01-18

616

因为目前学习的知识数量有限仅为数学建模比赛，所以现在只学习主要内容。这一节我们直接来学习MATLAB的绘图操作。在MATLAB中绘制函数图形的步骤如下：先定义变量 x，通过指定的变量 x值的范围，该函数被绘制；然后定义函数，y = f(x)；最后调用 plot 命令，如plot(x, y)。接下来我们通过例子绘制简单的函数,x的范围从0到100，增量为5。在MATLAB中建立一个脚本文件，输入下述代码： x=[0:5:100]; y=2*x.^5;...

SHAP绘制图像修改字体

UncleDong的博客

02-22

5165

进入源码一步步debug，发现在设置yticks等操作的时候，源码已经把fontsize限制死了。所以再用plt的操作去改变fontsize也没用。这样show出来就导致，后续再基于plt的任何修改都不会反应在图像上，因为图像已经展示出来了。继续阅读源码，发现到shap绘制代码的最后，通过一个判断条件直接把图片show出来了。通过看源代码解决了这个问题，这里是调用的shap绘制函数。

Python 中的 SHAP 简介

茶桁专栏

08-16

2270

分类特征的 SHAP

茶桁专栏

09-06

1179

将经过One-Hot 编码转换的分类特征的 SHAP 值相加分类特征需要先进行转换，然后才能用于模型。One-Hot 编码是一种常见的方法：我们最终会得到每个类别的二进制变量。这很好，直到理解使用 SHAP 的模型为止。每个二进制变量都有自己的 SHAP 值。这使得很难理解原始分类特征的整体贡献。一种简单的方法是将每个二进制变量的 SHAP 值加在一起。这可以解释为原始分类特征的 SHAP 值。我们将向你介绍执行此操作的 Python 代码。我们将看到我们能够使用 SHAP 聚合图。

ECharts数据可视化学习笔记（温故而知新）

qq_64510496的博客

07-14

239

ECharts是一个使用JavaScript 实现的开源可视化库，兼容性强，底层依赖矢量图形库 ZRender，提供直观，交互丰富，可高度个性化定制的数据可视化图表。

基于随机森林模型的心脏病患者预测及可视化（pdpbox、eli5、shap、graphviz库）附相关库安装教程

weixin_47759089的博客

03-03

1万+

项目详解：1.引入库2.数据预处理和类型转化3.随机森林模型建立与解释4.决策树可视化5.基于混淆矩阵的分类评价指标6.部分依赖图PDP的绘制和解释

医学数据挖掘流程（四）：建模调参画图

天狼啸月1990的博客

11-11

2251

建模数据集不包含patient_id或case_no，但我们需要保存一版带id的数据集，自己看！二分类模型多分类模型回归模型。

SHAP 可视化解释机器学习模型简介

热门推荐

chaishen10000的专栏

12-14

6万+

个人理解SHAP模型是对机器学习模型进行解释的一个模型上面这个图就是一个比较直观的解释机器学习模型一般都是一个黑盒。比如某个模型要进行一些预测任务，首先对模型输入一些已知条件（Age=65,Sex=F,BP=180,BMI=40），然后模型根据输入进行训练，最终训练完的模型可以对该条件输出预测结果（Output=0.4）

真香！利用 Shap 可完美实现机器学习模型输出可视化！

Python学习与数据挖掘

06-29

1万+

解释一个机器学习模型是一个困难的任务，因为我们不知道这个模型在那个黑匣子里是如何工作的。解释是必需的，这样我们可以选择最佳的模型，同时也使其健壮。 Shap 是一个开源的 python 库，用于解释模型。它可以创建多种类型的可视化，有助于了解模型和解释模型是如何工作的。在本文中，我们将会分享一些 Shap 创建的不同类型的机器学习模型可视化。我们开始吧… 安装所需的库使用pip安装Shap开始。下面给出的命令可以做到这一点。 pip install shap 导入所需库在这一步中，我们将导入加载数

shap_value

kyle1314608的博客

01-04

3811

https://mathpretty.com/11210.html

如何复现nature medicine的Shap图

qq_38844835的博客

10-26

1507

在一篇令人振奋的 Nature Medicine 论文中，作者附上了用于生成 SHAP 图的制图代码，这确实值得庆幸。不过由于不同的环境等问题，我们照搬文章的代码不一定会得到文章中显示的图片。这确实会让我们很愚蒙，甚至一度怀疑自己。

SHAP 分析的三种应用场景及其意义

skyskytotop的博客

02-08

1366

SHAP分析可以展示变量重要性、描述变量间的关系、给出变量当前值对预测结果的贡献，展现出了巨大的分析价值，并且除了以上的结果，SHAP分析还可以做交互作用分析，但是具体的应用场景话费意义还有待遇进一步挖掘。

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from pathlib import Path excel_path = "C:/Users/Administrator/Desktop/data2.xlsx" data = pd.read_excel(excel_path, sheet_name='Sheet1') x = data[['掺氨比', '总热输入', '分级比', '主燃区温度']] y = data['NOx排放浓度'] cat_cols = data.select_dtypes(include=['object']).columns for col in cat_cols: data[col] = le.fit_transform(data[col]) X = data.drop('NOx排放浓度', axis=1) y = data['NOx排放浓度'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) import xgboost as xgb dtrain = xgb.DMatrix(X_train, label=y_train) dtest = xgb.DMatrix(X_test, label=y_test) params = { 'objective': 'reg:squarederror', 'eval_metric': 'rmse', 'eta': 0.1, 'max_depth': 6, 'subsample': 0.8, 'colsample_bytree': 0.8 } model = xgb.train(params, dtrain, num_boost_round=100, evals=[(dtrain, 'train'), (dtest, 'test')], early_stopping_rounds=10) y_pred = model.predict(dtest) from sklearn.metrics import mean_squared_error, r2_score from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split print(f"MSE: {mean_squared_error(y_test, y_pred):.2f}") print(f"RMSE: {mean_squared_error(y_test, y_pred, squared=False):.2f}") print(f"R²: {r2_score(y_test, y_pred):.2%}") import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体为黑体 plt.rcParams['axes.unicode_minus'] = False xgb.plot_importance(model) plt.show() 评估结果不好

03-08

<think>嗯，用户给了一段代码，是关于使用XGBoost回归模型预测NOx排放浓度的，但评估结果不好，比如MSE、RMSE和R²分数不理想。用户希望我分析原因并提出改进方法。首先，我需要仔细看看代码有没有什么问题。首先看数据导入部分，用户用了pandas读取Excel，正确。然后定义了特征x和目标y，但之后又处理了分类列，可能数据里有类别变量？不过原来的x里并没有包含这些分类列，因为后面又用X = data.drop('NOx排放浓度', axis=1)，这时候可能包含了之前处理过的分类列。这里可能存在一个问题：是否在特征工程中正确处理了分类变量？接下来，LabelEncoder被应用到了所有object类型的列，但用户可能在数据中存在其他分类特征未被正确编码的情况。或者，可能在特征选择的时候有没有遗漏重要的变量？然后，数据分割用了train_test_split，参数没问题。XGBoost的参数设置方面，objective是回归，eval_metric是RMSE，参数如eta、max_depth等看起来常规。可能模型参数需要调整，或者数据量不够，导致过拟合或欠拟合？模型训练部分用了early_stopping，观察验证集的性能，这可以防止过拟合。但结果不好可能说明模型没有学习到足够的模式。可能特征不够相关，或者数据预处理有问题，比如是否需要标准化或归一化？XGBoost通常对特征缩放不敏感，但其他处理比如缺失值处理呢？数据里是否有缺失值？用户代码中没有处理缺失值的步骤，可能数据中存在NaN值，影响模型表现。另外，特征选择方面，用户最初选取的四个特征是否足够？是否遗漏了其他重要特征？或者这些特征与目标的相关性不高？可能需要做特征相关性分析，比如计算相关系数矩阵，或者通过其他特征重要性方法筛选。评估指标方面，用户计算了MSE、RMSE和R²，R²低说明模型解释力不足。这时候可能需要更多的特征，或者更复杂的模型，或者数据本身噪音太大，无法有效预测。还有，数据量的问题。如果样本量太少，模型难以学习到规律，尤其是XGBoost这种需要足够数据量的模型。用户的数据量是否足够？比如，data2.xlsx里的样本数是多少？如果只有几十条，可能效果不好。另外，可能模型超参数需要调优。虽然用户设定了eta、max_depth等，但可能没有找到最佳组合。建议使用网格搜索或随机搜索进行参数调优，比如调整max_depth、subsample、colsample_bytree、learning_rate等，或者增加n_estimators（num_boost_round）。还有可能数据存在非线性关系，XGBoost本身可以处理，但可能需要更深的树或者不同的参数设置。或者，尝试其他模型，比如随机森林、梯度提升树等，比较结果。另外，检查是否有异常值影响模型。NOx排放浓度是否有极端值？可以通过箱线图查看，或者对目标变量进行变换，比如对数变换，使其分布更接近正态，可能提升模型效果。特征工程方面，是否可以考虑交互项、多项式特征？比如将某些特征相乘或平方，增加模型的表达能力。或者进行分箱处理，将连续变量离散化。最后，可视化部分，用户画了特征重要性图，可能发现某些特征的重要性较低，这时候可以考虑移除不重要特征，减少过拟合风险，或者进一步分析这些特征是否有意义。总结下来，可能的问题包括数据预处理不充分、特征选择不当、模型参数未调优、数据量不足、异常值存在等。需要逐一排查，并进行相应的改进。</think>以下是对该机器学习流程的分析和改进建议，按步骤说明： $$代码分析流程图$$ 1. 数据读取 → 2. 特征工程 → 3. 数据分割 → 4. 模型训练 → 5. 模型评估 $\boxed{问题诊断}$ 1. $\color{red}{数据泄露}$：LabelEncoder在循环外使用fit_transform，应在循环内对每个分类列单独处理 2. $\color{red}{特征矛盾}$：x初始定义为4个特征，但后续X使用data.drop()会包含所有特征 3. $\color{orange}{参数未优化}$：XGBoost默认参数可能不适合当前数据集 4. $\color{orange}{特征工程缺失}$：未处理异常值、未标准化连续变量 $\boxed{改进方案}$ 1. $\textcircled{1}$ 数据预处理修正： ```python # 修正后的LabelEncoder应用 le = LabelEncoder() for col in cat_cols: data[col] = le.fit_transform(data[col].astype(str)) # 确保处理字符串类型 # 添加标准化（对连续变量） from sklearn.preprocessing import StandardScaler num_cols = ['掺氨比', '总热输入', '分级比', '主燃区温度'] scaler = StandardScaler() data[num_cols] = scaler.fit_transform(data[num_cols]) ``` 2. $\textcircled{2}$ 特征工程增强： ```python # 添加交互特征示例 data['热输入_温度'] = data['总热输入'] * data['主燃区温度'] # 异常值处理（使用IQR方法） Q1 = data['NOx排放浓度'].quantile(0.25) Q3 = data['NOx排放浓度'].quantile(0.75) IQR = Q3 - Q1 data = data[~((data['NOx排放浓度'] < (Q1 - 1.5*IQR)) | (data['NOx排放浓度'] > (Q3 + 1.5*IQR)))] ``` 3. $\textcircled{3}$ 参数优化： ```python # 使用网格搜索优化参数 from sklearn.model_selection import GridSearchCV param_grid = { 'max_depth': [4, 6, 8], 'learning_rate': [0.01, 0.1, 0.2], 'subsample': [0.6, 0.8, 1.0], 'colsample_bytree': [0.6, 0.8, 1.0] } xgb_reg = xgb.XGBRegressor(objective='reg:squarederror') grid_search = GridSearchCV(estimator=xgb_reg, param_grid=param_grid, scoring='neg_mean_squared_error', cv=5) grid_search.fit(X_train, y_train) best_params = grid_search.best_params_ ``` $\boxed{评估指标提升策略}$ 1. $\sqrt{交叉验证}$：使用5折交叉验证代替单一划分 2. $\mathbb{E}[R^2]$提升：尝试特征选择方法 ```python from sklearn.feature_selection import RFE # 递归特征消除 selector = RFE(estimator=xgb.XGBRegressor(), n_features_to_select=6, step=1) selector = selector.fit(X_train, y_train) selected_features = X.columns[selector.support_] ``` 3. $\lambda$正则化：在XGBoost参数中添加正则项 ```python params.update({ 'lambda': 0.1, # L2正则化 'alpha': 0.01, # L1正则化 'min_child_weight': 5 }) ``` $\boxed{可视化改进}$ 建议添加预测值与真实值的散点图，直观显示拟合效果： ```python plt.figure(figsize=(10,6)) plt.scatter(y_test, y_pred, alpha=0.6) plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2) plt.xlabel("真实值") plt.ylabel("预测值") plt.title("预测值 vs 真实值") plt.grid(True) plt.show() ``` $\boxed{终极解决方案}$ 若上述改进仍不理想，可尝试： 1. 使用深度学习方法构建全连接神经网络 2. 集成多个模型（XGBoost + LightGBM + CatBoost） 3. 应用贝叶斯优化进行超参数搜索 4. 使用SHAP值进行可解释性分析，辅助特征工程建议优先检查数据质量（缺失值、异常值、特征相关性），再优化模型参数，最后考虑模型复杂度升级。可通过以下命令快速检查数据基本信息： ```python print(data.info()) print(data.describe()) data.hist(figsize=(12,10)) plt.show() ```