XGB模型可解释性SHAP包实战

最新推荐文章于 2024-08-18 13:01:27 发布

椰风风风档不住

最新推荐文章于 2024-08-18 13:01:27 发布

阅读量4.1k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/u010970317/article/details/109120788

版权

本文介绍了如何使用SHAP值来解释XGBoost模型的预测结果。通过实战，展示了SHAP分析如何揭示特征对预测的影响，包括单样本特征上的SHAP值和全样本的SHAP分布。SHAP值提供了每个特征对模型预测的贡献，显示了特征的正负影响，以及与传统feature_importance不同的特征重要性排序。

摘要由CSDN通过智能技术生成

前言

Xgboost相对于逻辑回归模型在进行预测时往往有更好的精度，但是同时也失去了线性模型的可解释性。

Feature importance可以直观地反映出特征的重要性，看出哪些特征对最终的模型影响较大。但是无法判断特征与最终预测结果的关系是如何的。

Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型（分类以及回归），如boosting和神经网络模型。

下面我们通过实战讲解SHAP。请在SofaSofa数据竞赛页面进行数据下载，下载解压这个文件。

1.XGB建模

1.1 数据处理：

import shap
from xgboost import XGBRegressor as XGBR
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn')

# 读取数据------
data = pd.read_csv(r'D:\Download\data\train.csv',parse_dates=[3])

在这里插入图片描述

# 分类变量编码处理------
pd.set_option('display.max_rows',500) #调整最大显示行
print(data.dtypes) # 找出分类特征，稍后进行OneHotEncoder

col = ['club', 'league',  'height_cm', 'weight_kg',
       'nationality', 'potential', 'pac', 'sho'