DataScience&ML:基于heart disease心脏病分类预测数据集利用决策数算法基于graphviz/eli5/pdpbox/shap库实现模型可解释性(全局/部分/局部解释)之详细攻略

本文详细介绍了如何使用决策树算法,结合graphviz, eli5, pdpbox和shap库,对heart disease数据集进行模型训练,并实现模型的全局、部分和局部可解释性。通过特征重要性、PDP图、SHAP值等方法,深入理解模型预测过程中的特征影响。" 128328974,6994005,使用API获取ROS rostopic list数据,"['ROS开发', 'API接口', 'Qt界面', 'ROS消息', 'UI交互']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DataScience&ML:基于heart disease心脏病分类预测数据集利用决策数算法基于graphviz/eli5/pdpbox/shap库实现模型可解释性(全局特征重要性解释/部分特征重要性/局部特征重要性解释/局部决策图可解释/误分类样本可视化)之详细攻略

目录

基于心脏病分类预测数据集利用等算法实现模型可解释性

# 1、定义数据集

# 2、数据预处理

# 2.0、数据分析—整体报告

 # 2.1、特征编码—变量数字化

# 2.2、数据分析及其可视化

# 2.2.1、特征之间相关性热图可视化

 # 2.2.2、数据分析之综合关联统计分析

 # 2.2.3、数据分析之单变量分布可视化分析

# 2.2.4、数据分析之多变量间关系可视化分析

# 2.2.5、PDP图可视化特征和目标相关性

# 1)、绘制某特征所有值的平均目标值

 # 2)、绘制某一对特征所有值的平均目标值

 # 2.3、数据处理之对整个数据集进行哑编码

# 2.3、分离特征与标签

# 3、模型训练

# 3.1、切分数据集

# 3.2、模型训练

# 3.2.1、模型建立

# 3.2.2、可视化DT树模型(或RF中的一个)并保存图片

# 3.3、模型预测

# 3.4、模型评估

# 4、模型特征重要性解释可视化

# 4.1、全局特征重要性可视化

# T1、基于模型本身输出特征重要性

 # T2、基于模型本身的解释(eli5)—如随机森林树模型,但模型可能会存在偏

# T3、基于模型度量的解释(eli5)—PFI置换特征重要性并可视化

# 4.2、部分特征重要性解释可视化

# 4.2.1、基于pdpbox库计算某特征的平均目标值

# 4.2.2、基于PDP可视化模型的可解释性

# (1)、PDP图解释模型可视化:基于pdpbox库计算某特征的模型预测分布

# (2)、单特征PDP可视化解释模型预测

# (3)、双特征交互PDP可视化解释模型预测:特征交互对模型预测结果的影响

# 4.2.3、基于SHAP可视化模型的可解释性

# (1)、利用Shap值解释RFC模型:计算X_test每个样本的每个特征对两类预测结果的shap值

# (2)、计算X_test各特征shap值summary_plot散点图、条形图、小提琴图可视化

# (3)、计算X_test成对交互特征shap值summary_plot可视化

# (4)、计算X_test某个特征变化(特征值的分布)时对应shap值的影响变化(shap值的分布)

# (5)、计算X_test某特征/交互特征分布对应shap值的影响变化

# (6)、计算X_test某特征局部独立图可视化:某特征的变化如何影响模型的输出及该特征值的分布,纵轴是模型的预测结果

# 4.3、局部特征重要性解释可视化

# (1)、计算单个样本的成对交互特征shap值条形图、热图可视化 ​编辑

# (2)、计算单个样本的shap值并进行力图可视化

# (3)、基于expected_value和shap值计算单个样本各个特征的贡献度并瀑布图可视化???

# 4.4、局部特征&部分特征重要性解释可视化——综合分析交互力图可视化(局部多个样本、逐个特征)

 (1)、横坐标:可以在下拉菜单选择

1)、按照相似性(默认)聚类展示

2)、按照预测结果概率从到小展示​编辑

3)、按照测试集原本样本顺序

 4)、按照某个特征分别展示

# (2)、纵坐标:可以在下拉菜单选择

1)、按照f(x)

2)、按照某个特征的effects分别展示

# 4.5、局部决策图可视化

# (1)、多个样本三种决策图可视化

# (2)、单个样本决策图可视化

# 5、模型分析

# 5.1、可视化误分类样本

# (1)、选出测试集中模型预测错误的样本

# (2)、力图可视化单个误分类样本

# (3)、决策图可视化所有误分类样本

 # (4)、基于特征交互的决策图可视化所有误分类样本


相关文章
DataScience&ML:基于heart disease心脏病分类预测数据集利用决策数算法基于graphviz/eli5/pdpbox/shap库实现模型可解释性(全局特征重要性解释/部分特征重要性/局部特征重要性解释/局部决策图可解释/误分类样本可视化)之

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值