ML之PDP:基于titanic泰坦尼克是否获救二分类预测数据集利用PDP部分依赖图对RF随机森林实现模型可解释性案例
目录
基于titanic泰坦尼克是否获救二分类预测数据集利用PDP部分依赖图对RF随机森林实现模型可解释性案例
# (1)、绘制不同特征值(特征网格)的平均目标值:检查特征和目标之间的信息
相关文章
ML之PDP:基于titanic泰坦尼克是否获救二分类预测数据集利用PDP部分依赖图对RF随机森林模型实现可解释性案例
ML之PDP:基于titanic泰坦尼克是否获救二分类预测数据集利用PDP部分依赖图对RF随机森林模型实现可解释性案例实现
基于titanic泰坦尼克是否获救二分类预测数据集利用PDP部分依赖图对RF随机森林实现模型可解释性案例
# 1、定义数据集
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked |
1 | 0 | 3 | Braund, Mr. Owen Harris | male | 22 | 1 | 0 | A/5 21171 | 7.25 | S | |
2 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Thayer) | female | 38 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
3 | 1 | 3 | Heikkinen, Miss. Laina | female | 26 | 0 | 0 | STON/O2. 3101282 | 7.925 | S | |
4 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35 | 1 | 0 | 113803 | 53.1 | C123 | S |
5 | 0 | 3 | Allen, Mr. William Henry | male | 35 | 0 | 0 | 373450 | 8.05 | S |
# 2、数据预处理
# 2.1、类别特征编码
# 2.2、特征筛选且空值填充
Pclass Age SibSp Parch Fare Sex_encoding Embarked_encoding \
0 3 22.0 1 0 7.2500 1 0
1 1 38.0 1 0 71.2833 0 1
2 3 26.0 0 0 7.9250 0 0
3 1 35.0 1 0 53.1000 0 0
4 3 35.0 0 0 8.0500 1 0
Survived
0 0
1 1
2 1
3 1
4 0
# 3、模型训练与推理
# 3.1、数据集切分
# 3.2、模型训练
# 3.3、树模型可视化并保存图片
# 4、PDP实现模型可解释性
# 4.1、基于pdpbox库实现特征间相关性可视化
# (1)、绘制不同特征值(特征网格)的平均目标值:检查特征和目标之间的信息
target_plot summary_df
x display_column value_lower value_upper count Survived
0 0 [0, 7.73) 0.000000 7.732844 99 0.141414
1 1 [7.73, 7.9) 7.732844 7.895800 86 0.337209
2 2 [7.9, 8.66) 7.895800 8.662500 110 0.154545
3 3 [8.66, 13) 8.662500 13.000000 91 0.329670
4 4 [13, 16.7) 13.000000 16.700000 108 0.370370
5 5 [16.7, 26) 16.700000 26.000000 71 0.450704
6 6 [26, 35.11) 26.000000 35.111111 128 0.445312
7 7 [35.11, 73.5) 35.111111 73.500000 96 0.510417
8 8 [73.5, 512.33] 73.500000 512.329200 102 0.725490
# 4.2、模型可解释性
# (1)、绘制跨不同特征值(特征网格)的模型预测分布
actual_plot summary_df
x display_column ... actual_prediction_q2 actual_prediction_q3
0 0 [0, 7.73) ... 0.135135 0.135135
1 1 [7.73, 7.9) ... 0.135135 0.735294
2 2 [7.9, 8.21) ... 0.135135 0.135135
3 3 [8.21, 12.41) ... 0.135135 0.526316
4 4 [12.41, 15.9) ... 0.135135 0.596491
5 5 [15.9, 26) ... 0.181818 0.526316
6 6 [26, 34.38) ... 0.461538 0.909091
7 7 [34.38, 76.68) ... 0.285714 1.000000
8 8 [76.68, 512.33] ... 1.000000 1.000000
# (2)、单特征PDP可视化
计算并绘制PDP图解释模型预测