统计学习方法之决策树

最新推荐文章于 2022-11-02 12:35:49 发布

何如千泷

最新推荐文章于 2022-11-02 12:35:49 发布

阅读量209

点赞数

分类专栏：统计学习方法文章标签：决策树算法剪枝 python 机器学习

本文链接：https://blog.csdn.net/qq_42735631/article/details/110663130

版权

统计学习方法专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1. 决策树模型与学习

1.1 决策树模型

分类决策树模型是一种描述对实例进行分类的树形结构。决策数由节点和有向边组成。节点有两种类型：内部节点和叶节点。内部节点表示特征，叶节点表示类。

如图所示：
在这里插入图片描述

在这里插入图片描述

1.2 决策树学习

决策树学习算法：

特征选择：如果特征数量很多，也可以在决策树学习开始的时候，对特征进行选择，只留下对训练数据有足够分类能力的特征。
决策树的生成：决策树学习的算法通常是个递归地选择最优特征，并根据该特征对训练数据进行分剖，使得对各个子数据集有一个最好的分类的过程。
决策树的剪枝：我们需要对己生成的树自下而上进行剪枝，将树变得更简单，从而使它具有更好的泛化能力。

2. 特征选择

如果一个特征具有较好的分类能力，即按照此特征将数据集分割成子集，各个子集在当前条件下有最好的分类。（最好的分类：基本可以确定其类别，或者是它的不确定性比较小）

2.1 熵

熵：表示随机变量不确定的度量。

假设 $X$ 的概率分布为：
$P(X=x_i)=p_i$
则随机变量 $X$ 的熵为
$H(X)=-\sum p_i logp_i$

条件熵：表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。

假设随机变量 $(X, Y)$ 的联合分布为：
$P(X=x_i,Y=y_i)=p_{ij}$

则随机变量 $X, Y$ 的条件熵为
$H(Y|X)=\sum p_i H(Y|X=x_i)$

2.2 信息增益

特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的条件熵之差:

$g (D, A) = H (D) - H (D ∣ A)$

由于特征 $A$ 从而使得数据集 $D$ 的分类的不确定性减少，所以其减少的越多，说明其特征越好，即信息增益大的特征具有更强的分类能力。

信息增益算法:
输入：训练数据集 $D$ 和特征 $A$
输出： $g (D, A)$

计算 $H (D)$
$H(D)=-\sum_{k=1}^K \frac {|C_k|} {|D|} log_2 \frac {|C_k|} {|D|}$
- $∣ D ∣$ ：样本个数
- $C_k|$ ：属于类 $C_k$ 的样本个数
计算 $H (D ∣ A)$
$H(D|A)=\sum_{i=1}^n \frac {|D_i|} {|D|} H(D_i)=-\sum_{i=1}^n \frac {|D_i|} {|D|}\sum_{k=1}^K \frac {|D_{ik}|} {D_i} log_2 \frac {|D_{ik}|} {|D_i|}$
- $D_i|$ ：子集样本个数
- $D_{ik}|$ ：子集样本 $D_i$ 中属于类 $C_k$ 的样本个数
计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$

2.3 信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。故可采用信息增益比。

特征 $A$ 对训练数据集 $D$ 的信息增益比：
$g_R(D,A)=\frac {g(D,A)} {H_A(D)}$

其中: $H_A(D)=-\sum_{i=1}^n \frac {|D_i|} {|D|} log_2\frac {|D_i|} {|D|}$

3. 决策树的生成

3.1 ID3算法

ID3算法的核心是在决策树各个结点上利用信息增益准则选择特征，递归地构建决策树。

ID3算法：
输入：训练数据集 $D$ ,特征集 $A$
输出：决策树 $T$

计算各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$
对 $A_g$ 的每一个可能值 $a_i$ ，按照 $A_g=a_i$ 将 $D$ 划分为若干非空子集 $D_i$ ，将 $D_i$ 中实例最大的类作为标记，构建子节点，由结点及其子节点构成树 $T$ ，返回 $T$
对于第 $i$ 个子节点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集。递归调用上面2步

3.2 C4.5算法

C4.5算法与ID3算法类似，在生成过程中，用信息增益比代替了信息增益。

4. 决策树的剪枝

决策树生成算法产生的树通常对训练数据的分类很准确，但对测试数据的分类却没有那么准确，即出现过拟合现象。
解决这个这个问题的方法就是简化树，即剪枝，从而让模型不要过于复杂。

决策树的剪枝通常是极小化决策树整体的损失函数来实现的。损失函数为：
$C_{\alpha}(T)=\sum_{t=1}^{|T|} N_tH_t(T)+\alpha|T|$

$∣ T ∣$ ：树 $T$ 中叶结点的个数
$H_t(T)$ ：叶节点 $t$ 的熵
$N_t$ ：叶节点 $t$ 的样本点个数

$H_t(T) = -\sum_{k=1}^K \frac {N_{tk}} {N_t} log\frac {N_{tk}} {N_t}$

记损失函数第1项为：
$C(T)=\sum_{t=1}^{|T|} N_tH_t(T)=-\sum_{t=1}^{|T|}\sum_{k=1}^K \frac {N_{tk}} {N_t} log\frac {N_{tk}} {N_t}$
所以：
$C_\alpha(T) = C(T) + \alpha|T|$

$C (T)$ ：表示模型对训练数据的预测误差
$∣ T ∣$ ：表示模型的复杂度

树的剪枝算法
输入：决策树生成算法生成的整个树 $T$ ，参数 $\alpha$
输出：修建后的子树 $T_{\alpha}$

计算每个结点的熵
递归地从树地叶结点向上回缩

设一组叶结点回缩到其父结点之前与之后地树分别为 $T_B$ 与 $T_A$ ，其对应的损失函数分别为 $C_{\alpha}(T_B)$ 与 $C_{\alpha}(T_A)$ ,如果
$C_{\alpha}(T_A) \leqslant C_{\alpha}(T_B)$
则进行剪枝。
3. 返回第2步，直至不能继续为止，得到损失最小的子树 $T_{\alpha}$

5. CART算法

1. 特征选择

分类树用基尼指数选择最优特征。
基尼指数与熵一样，表示随机变量的不确定性的大小

Gini = 样本被选中的概率*样本选错的概率
Gini越大，数据的不确定性越高
Gini越小，数据的不确定性越低

分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则其基尼指数为：
$Gini(p)=\sum_{k=1}^{K}p_k(1-p_k)$

如果样本集合 $D$ 根据特征 $A$ 是否取某一可能值 $a$ 被划分为 $D_1$ 和 $D_2$ 两部分，即
$D_1=\{(x,y) \in D |A(x)=a\}, D_2=D-D_1$

则在特征 $A$ 的条件下，集合 $D$ 的基尼指数为：
$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D}Gini(D_2)$

2. 树的生成

输入：训练数据集 $D$
输出：CART决策树

计算现有特征对数据集的基尼指数
选择基尼指数最小的特征及其对应的划分点作为最优特征和最优划分点，并根据此特征将数据集划分为两个子集
对两个子集递归调用(1),(2)，直至满足条件
生成CART决策树

3. 树的剪枝

CART剪枝算法由两步组成

由生成算法生成的决策树 $T_0$ 底端开始不断剪枝，直到 $T_0$ 的根节点，形成一个子树序列 $\{T_0,T_1, \cdots, T_n\}$
通过交叉验证的方法对子树序列进行验证测试，从中选择最优子树

计算子树的损失函数为：
$C_\alpha(T)=C(T)+ \alpha|T|$

$C (T)$ ：对训练数据的预测误差
$∣ T ∣$ ：为树的叶节点数目
$\alpha$ ：权衡训练数据的拟合程度与模型的复杂度

从整体树 $T_0$ 开始剪枝，对于 $T_0$ 的任意内部节点 $t$ ，以 $t$ 为单节点树的损失函数为：
$C_\alpha(t)=C(t)+\alpha$

以 $t$ 为根节点的子树 $T_t$ 的损失函数为：
$C_\alpha(T_t)=C(T_t)+\alpha|T_t|$

只要 $\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}$ ， $T_t$ 与 $t$ 有相同的损失函数值，但 $t$ 的节点少，因此 $t$ 比 $T_t$ 更可取。

对 $T_0$ 中的每一内部节点 $t$ ，计算
$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$

它表示剪枝后整体损失函数的减少的程度。
在 $T_0$ 中剪去 $g (t)$ 最小的 $T_t$ ，得到子树作为 $T_1$ ，同时将最小的 $g (t)$ 作为 $\alpha_1$ ，则 $T_1$ 就是 $[\alpha,\alpha_1)$ 的最优树。

CART算法剪枝算法
输入：CART算法生成的决策树 $T_0$
输出：最优决策树 $T_\alpha$

设 $k=0,T=T_0$
设 $\alpha=+\infty$
自下而上对各内节点 $t$ 计算 $C(T_t)$ ， $T_t|$ 以及
$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$

$\alpha=min(\alpha,g(t))$

对 $g(t)=\alpha$ 的内部节点 $t$ 进行剪枝，并对叶节点 $t$ 以多数表决法确定其类别，得到树 $T$
设 $\alpha_k=\alpha,T_k=T$
如果 $T_k$ 不是由根节点及两个叶节点组成的树，则返回步骤(2);否则令 $T_k=T_n$
采用交叉验证法从子树序列中选取最优子树 $T_\alpha$

6. 算法实现

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target

data = np.array(df)
X, y = data[:,:-1], data[:,-1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
import graphviz

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

DecisionTreeClassifier()

tree_pic = export_graphviz(clf, out_file='mytree.pdf')
with open('mytree.pdf') as f:
    dot_graph = f.read()

graphviz.Source(dot_graph)

在这里插入图片描述

何如千泷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法之决策树

1. 决策树模型与学习1.1 决策树模型分类决策树模型是一种描述对实例进行分类的树形结构。决策数由节点和有向边组成。节点有两种类型：内部节点和叶节点。内部节点表示特征，叶节点表示类。如图所示：1.2 决策树学习决策树学习算法：特征选择：如果特征数量很多，也可以在决策树学习开始的时候，对特征进行选择，只留下对训练数据有足够分类能力的特征。决策树的生成：决策树学习的算法通常是个递归地选择最优特征，并根据该特征对训练数据进行分剖，使得对各个子数据集有一个最好的分类的过程。决策树的剪枝：我们
复制链接

扫一扫

专栏目录