决 策 树 模 型 篇
一、 决 策 树 模 型
决策树模型是以树形结构的形式,做连续的逻辑判断。决策树是,主要由3种元素构成:
1) 根节点(初始节点) :代表全部样本
2).内部节点:对应特征属性测试
3) 叶节点:代表决策的结果
二 、C A R T 算 法
CART算法建立决策树的依据是基尼系数,而基尼系数表示的是从系统中随机抽取两个样本,其类别不一样的概率。基尼系数越小,系统的区分度就越高,越适合用于分类预测。
(1)决策树样本的基尼系数
决策树样本的基尼系数公式:gini(T)= 1 - ∑ Pi ²
1)gini(T):样本T的基尼系数
2)pi:样本中类别 i 所占的比例
3)∑ Pi ²:所有 pi的平方 求和
(2)决策树系统的基尼系数
决策树系统的基尼系数公式为:
gini(T) = p1gini(T1) + p2gini(T2)
1)p1,p2是划分后,两类各自占的比例
2)gini(T1),gini(T2)是两类各自的基尼系数
三、 决 策 树 模 型 搭 建
决策树相关模块
import pandas as pd
# 决策树:分类决策模型模块
from sklearn.tree import DecisionTreeClassifier
# 决策树:回归决策模型模块
from sklearn.tree import DecisionTreeRegressor
# 划分训练集和测试集模块/K折交叉验证模块/GridSearch网格搜索模块
from sklearn.model_selection import train_test_split,cross_val_score,GridSearchCV
# 计算准确率、准确项数模块/计算误差率、命中率、阈值模块/计算AUC值模块/
from sklearn.metrics import accuracy_score,roc_curve,roc_auc_score
(1)模 型 搭 建 步 骤:
1)读取文件进行数据处理
2)设置自变量和因变量
3)设置训练集和测试集
4)设置无参数模型
5)用K折交叉验证法设置AUC平均值标准
6)用GridSearch网格搜索法进行模型参数调优
7)搭建初始化模型
8)分类决策模型训练
9)预测结果测试
10)测试模型准确率、准确项数、ROC、AUC
11)输出模型检测结果
(2) 模 型 搭 建 相 关 代 码
p""" 分类决策模型 """
# # 数据处理
# 内容替代标记
data['工资'] = data['工资'].replace({
'低':0,'中':1,'高':2<