大白话决策树分类

最新推荐文章于 2024-08-04 21:08:26 发布

YJ语

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量3.2k

点赞数 7

分类专栏： # 机器学习

本文链接：https://blog.csdn.net/The_dream1/article/details/111703883

版权

机器学习专栏收录该内容

28 篇文章 13 订阅

订阅专栏

文章目录

前言
1 决策树的基本流程
2 决策树的属性划分
3 决策树的减枝处理
4 决策树中的连续值和缺失值
5 多变量的决策树
6 sklearn中的决策树
总结

前言

决策树（decision tree）：是一种基本的分类与回归方法，此处主要讨论分类的决策树。
但是对于决策树回归，跟决策树分类差不多，是在决策树分类的基础下，获取各各叶子结点（类）的均值。

1 决策树的基本流程

1）构建根节点，将所有训练数据都放在根节点，根据某种算法选择一个最优特征，按着这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。

2）如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶节点去。

3）如果还有子集不能够被正确的分类，选取子集选择新的最优特征，继续对其进行分割，构建相应的节点，如此递归，直至所有训练数据子集被基本正确的分类，或者没有合适的特征为止。

4）每个子集都被分到叶节点上，即都有了明确的类，这样就生成了一颗决策树。

2 决策树的属性划分

2.1 信息增益（ID3算法）

在这里插入图片描述
简单一句话就是：划分前的信息熵–划分后的信息熵。表示的是向纯度方向迈出的“步长”。

举个例子

2.2 C4.5算法（信息增益比）

分裂信息

信息增益率

举个例子：

计算income的增益率
由上面Gain（income）=0.029。因此GainRatio（income）= 0.029/1.557 = 0.019

2.3 CART算法（基尼指数）

在这里插入图片描述

3 决策树的减枝处理

分为预减枝和后减枝
预减枝：在划分前计算该划分前后的验证精度（通过验证集对该树进行验证），若精度不提升则减枝，否者不减枝
后减枝：在树生成后进行减枝，计算减枝后的验证精度是否提升，来判断减不减枝

4 决策树中的连续值和缺失值

开始之前先思考第一个为问题？当样本数据中出现连续值和缺失值，决策树是怎么处理的？
对于特征（列）中的连续值处理：
1）对该连续值按小到大排序
2）依次选取左右两个点的中间值，形成n-1个划分结点
3）在这些划分结点中选择最有效的划分结点

5 多变量的决策树

首先让我们看看，正常的决策树是长这样
在这里插入图片描述

多变量决策树长这样
在这里插入图片描述
对比前后，实际上原来的化分类别的是关于轴（x和y）平行的，现在变为线/曲线
这线是怎么出来的？实质上在各各变量间建立了一个关系函数，再以此分类

思考第二个问题，若数据集中出现缺失值，决策树又是怎么处理的？

由上面可以看出，对于缺失值的处理就是在原信息增益的基础上进行推广，计算含缺失值的信息增益。

6 sklearn中的决策树

对于sklearn中的模型基本上就分为以下3步骤：

第1步：导入模型，并确定模型参数
第2步：添加训练模型
第3步：对训练后的模型进行样本预测/平均精度

为了方便理解，这里使用sklearn中的load_iris数据集举例，模型3步骤：

### 虹膜数据集构建树
from sklearn.datasets import load_iris
from sklearn import tree
X, y = load_iris(return_X_y=True)

## 第1步：导入模型，并确定模型参数
clf = tree.DecisionTreeClassifier()

## 第2步：添加数据训练模型
clf = clf.fit(X, y)

## 第3步：对训练后的模型进行样本预测/平均精度
#这里可以调用函数查看模型的属性，或者预测样本类型等
print("训练集样本平均精度"+str(clf.score(X,y)))