决策树

最新推荐文章于 2024-01-05 00:57:04 发布

欣赏凌晨

最新推荐文章于 2024-01-05 00:57:04 发布

阅读量423

点赞数

分类专栏：机器学习日志文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44944815/article/details/106007230

版权

机器学习日志专栏收录该内容

4 篇文章 0 订阅

订阅专栏

简介

决策树（Decision Tree）是一种基本的分类与回归方法，当决策树用于分类时称为分类树，用于回归时称为回归树。本文主要讨论决策树中的分类树与回归树的一些基本理论，后续文章会继续讨论决策树的Boosting和Bagging相关方法。
决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列。在下图中，圆和方框分别表示内部结点和叶结点。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。

在这里插入图片描述
算法的基本流程如下图所示：

在这里插入图片描述

ID3算法/信息增益
ID3算法使用信息增益为准则来选择划分属性，“信息熵”(information entropy)是度量样本结合纯度的常用指标，假定当前样本集合D中第k类样本所占比例为pk，则样本集合D的信息熵定义为：
多，表示该分支节点的影响力越大。故可以计算出划分后相比原始数据集D获得的“信息增益”（information gain）。

信息增益越大，表示使用该属性划分样本集D的效果越好，因此ID3算法在递归过程中，每次选择最大信息增益的属性作为当前的划分属性。

但信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5决策树算法不直接使用信息增益来选择划分属性，而是使用信息增益率来选择最优划分属性。
C4.5算法 / 增益率
D3算法存在一个问题，就是偏向于取值数目较多的属性，例如：如果存在一个唯一标识，这样样本集D将会被划分为|D|个分支，每个分支只有一个样本，这样划分后的信息熵为零，十分纯净，但是对分类毫无用处。因此C4.5算法使用了“增益率”（gain ratio）来选择划分属性，来避免这个问题带来的困扰。首先使用ID3算法计算出信息增益高于平均水平的候选属性，接着C4.5计算这些候选属性的增益率，增益率定义为：

2.3、CART算法 / 基尼指数
CART决策树使用“基尼指数”（Gini index）来选择划分属性，基尼指数反映的是从样本集D中随机抽取两个样本，其类别标记不一致的概率，因此Gini(D)越小越好，基尼指数定义如下：

进而，使用属性α划分后的基尼指数为
剪枝操作
不管怎么样的训练集，决策树总是能很好地将各个类别分离开来，这时就会遇到之前提到过的问题：过拟合（overfitting），即太依赖于训练样本。剪枝（pruning）则是决策树算法对付过拟合的主要手段，剪枝的策略有两种如下

预剪枝（prepruning）：在构造的过程中先评估，再考虑是否分支。
后剪枝（post-pruning）：在构造好一颗完整的决策树后，自底向上，评估分支的必要性。
评估指的是性能度量，即决策树的泛化性能。之前提到：可以使用测试集作为学习器泛化性能的近似，因此可以将数据集划分为训练集和测试集。预剪枝表示在构造数的过程中，对一个节点考虑是否分支时，首先计算决策树不分支时在测试集上的性能，再计算分支之后的性能，若分支对性能没有提升，则选择不分支（即剪枝）。后剪枝则表示在构造好一颗完整的决策树后，从最下面的节点开始，考虑该节点分支对模型的性能是否有提升，若无则剪枝，即将该节点标记为叶子节点，类别标记为其包含样本最多的类别。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier


#引入数据
dataset1 = pd.read_csv('iris.txt')
dataset2 = np.array(dataset1)
X = dataset2[:, 0:4]
y = dataset2[:,4]

#拆分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=0)

#特征缩放
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

#进行决策树分类拟合
classifier = DecisionTreeClassifier(criterion='gini',random_state=0  )
classifier.fit(X_train,y_train)

#预测
y_pred = classifier.predict(X_test)

x = np.array([4.3,3.0,1.1,0.1])
x1 = x.reshape(1,-1)
x1 = sc.transform(x1)
y1 = classifier.predict(x1)

欣赏凌晨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

简介决策树（Decision Tree）是一种基本的分类与回归方法，当决策树用于分类时称为分类树，用于回归时称为回归树。本文主要讨论决策树中的分类树与回归树的一些基本理论，后续文章会继续讨论决策树的Boosting和Bagging相关方法。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试.
复制链接

扫一扫