机 器 学习 · 决 策 树 模 型· C A R T 算 法 篇

在这里插入图片描述


一、 决 策 树 模 型

决策树模型是以树形结构的形式,做连续的逻辑判断。决策树是,主要由3种元素构成:
1) 根节点(初始节点) :代表全部样本
2).内部节点:对应特征属性测试
3) 叶节点:代表决策的结果

二 、C A R T 算 法

CART算法建立决策树的依据是基尼系数,而基尼系数表示的是从系统中随机抽取两个样本,其类别不一样的概率。基尼系数越小,系统的区分度就越高,越适合用于分类预测。

(1)决策树样本的基尼系数

决策树样本的基尼系数公式:gini(T)= 1 - ∑ Pi ²
1)gini(T):样本T的基尼系数
2)pi:样本中类别 i 所占的比例
3)∑ Pi ²:所有 pi的平方 求和

(2)决策树系统的基尼系数

决策树系统的基尼系数公式为:
gini(T) = p1gini(T1) + p2gini(T2)
1)p1,p2是划分后,两类各自占的比例
2)gini(T1),gini(T2)是两类各自的基尼系数

三、 决 策 树 模 型 搭 建

决策树相关模块

import pandas as pd
# 决策树:分类决策模型模块
from sklearn.tree import DecisionTreeClassifier
# 决策树:回归决策模型模块
from sklearn.tree import DecisionTreeRegressor
# 划分训练集和测试集模块/K折交叉验证模块/GridSearch网格搜索模块
from sklearn.model_selection import train_test_split,cross_val_score,GridSearchCV
# 计算准确率、准确项数模块/计算误差率、命中率、阈值模块/计算AUC值模块/
from sklearn.metrics import accuracy_score,roc_curve,roc_auc_score

(1)模 型 搭 建 步 骤:

1)读取文件进行数据处理
2)设置自变量和因变量
3)设置训练集和测试集
4)设置无参数模型
5)用K折交叉验证法设置AUC平均值标准
6)用GridSearch网格搜索法进行模型参数调优
7)搭建初始化模型
8)分类决策模型训练
9)预测结果测试
10)测试模型准确率、准确项数、ROC、AUC
11)输出模型检测结果

(2) 模 型 搭 建 相 关 代 码

p"""                             分类决策模型                                            """
# # 数据处理
# 内容替代标记
data['工资'] = data['工资'].replace({
   '低':0,'中':1,'高':2<
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Thomas_CC

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值