机器学习-决策树

Garker-gan

已于 2022-06-22 14:34:55 修改

阅读量275

点赞数

分类专栏：机器学习文章标签：机器学习决策树人工智能

于 2022-06-21 22:43:17 首次发布

本文链接：https://blog.csdn.net/weixin_37443412/article/details/125398596

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

决策树

决策树是一种基本的分类与回归方法。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。

1 决策树模型与学习

分类决策树模型是一种描述对实例进行分类的树形结构。决策树是由节点和有向边组成，结点有两种类型：内部结点和叶结点，内部结点表示一个特征或属性，叶结点表示一个类。
在这里插入图片描述

2 特征选择

通常特征选择的准则是信息增益或信息增益比。

2.1 信息增益

在信息论和概率统计中，熵表示随机变量不确定性的度量，则熵的定义为：
$H(p)=-\sum_{i=1}^n p_i logp_i$
对应地，熵越大，随机变量的不确定性越大。
$0\leq H(p) \leq logn$
条件熵 $p (Y ∣ X)$ 表示在已知随机变量X的条件下随机变量Y的不确定性。
$H(Y|X)=-\sum_{i=1}^n p_i H(Y|X=x_i)$
信息增益表示得知特征X的信息而使得类Y的信息的不准确性减少的程度。
特征A对于数码据集D的信息增益 $g (D, A)$ ,定义为经验熵 $H (D)$ 和条件经验熵 $H (D ∣ A)$ 之差。
$g (D, A) = H (D) - H (D ∣ A)$
熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差成为互信息。决策树中的信息增益等价于训练数据集中类与特征的互信息。
信息增益算法：
输入：训练数据集D和特征A
输出：信息增益 $g (D, A)$
(1）计算经验熵 $H (D)$
$H(D)=-\sum_{k=1}^K \frac{|D_k|}{|D|} log_2\frac{|D_k|}{|D|}$
(2)计算经验条件熵 $H (D ∣ A)$
$H(D|A)=-\sum_{i=1}^n \frac{|D_i|}{|D|}H(D_i)=-\sum_{k=1}^n\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}$
(3)计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$

2.2 信息增益比

信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。这是特征选择的另一准则。
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$

3 决策树的生成

3.1 ID3算法

ID3算法和核心决策各个结点上应用信息增益准则选择特征。
在这里插入图片描述

3.2 C4.5算法

C4.5对ID3算法做了改进，通过信息增益比特征选择准则。
在这里插入图片描述

4 决策树的剪枝

在决策树学习中将已生成的树进行简化的过程称为剪枝。用以防止过拟合。
决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树T的叶结点个数为 $∣ T ∣$ ，t是树T的叶结点，该结点有 $N_t$ 个样本点，其中k类的样本点有 $N_{tk}$ 个，k=1,2…k. $H_t(T)$ 为叶结点t上的经验熵， $\alpha \geq 0$ 为参数，则决策树学习的损失函数可以定义为：
$C_\alpha(T)=\sum_{t=1}^{|T|N}N_tH_t(T)+\alpha|T|$
其中经验熵为：
$H_t(T)=-\sum_k \frac{N_{tk}}{N_t}log \frac{N_{tk}}{N_t}$
那么损失函数可以写为:
$C_\alpha(T)=C(T)+\alpha|T|$
$C (T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度。 $∣ T ∣$ 表示模型复杂度，参数 $\alpha \geq0$ 控制两者之间的影响。其中， $\alpha =0$ 表示只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。
在这里插入图片描述

5 CART算法

分类与回归树（classification and regression tree,CART）既可以用于回归，也可以用于分类。

5.1 回归树的生成

决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则，对分类树用基尼指数(Gini index)最小化准则，进行特征选择，生成二叉树。
最小二乘回归树生成算法
输入：训练数据集D；
输出：回归树 $f (x)$ 。
在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树：
（1）选择最优切分变量 $j$ 与切分点 $s$ ，求解
$min_{j,s}[min_{c_1}\sum_{x_i \in R_1(j,s)}(y_i-c_1)^2+min_{c_2}\sum_{x_i \in R_2(j,s)}(y_i-c_2)^2]$
遍历变量j，对固定的切分量 $j$ 扫描切分点 $s$ ，选择使得上式达到最小值的 $(j, s)$ 。
（2）用选定的对 $(j, s)$ 划分区域并决定相应的输出值：
$R_1(j,s)=\left\{x^j \leq s\right\}$ , $R_2(j,s)=\left\{x^j > s\right\}$
$\hat c_m=\frac{1}{N_m}\sum_{x_i\in R_m(j,s)}y_i$
其中 $x\in R_m,m =1,2$ 。
（3）继续对两个子区域调用步骤（1）（2），直至满足停止条件。
（4）将输入空间划分为M个区域 $R_1,R_2,..,R_M$ ，生成决策树：
$f(x)=\sum_{m=1}^M\hat c_mI(x \in R_m)$

5.2 分类树的生成

基尼指数—分类问题中，假设有K个类，样本点属于第k类的概率为 $p_k$ ，则概率分布的基尼指数定义为
$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
对于二分类，则基尼指数为：
$G i n i (p) = 2 p (1 - p)$
对于给定样本集合D，其基尼指数为
$Gini(D)=1-\sum_{k=1}^K(\frac{|C_k|}{|D|})^2$
基尼指数越大，不确定性越大。
在这里插入图片描述

5.3 CART剪枝

CART剪枝算法
输入：CART算法生成的决策树 $T_0$ ;
输出：最优决策树 $T_\alpha$ 。
（1）设 $k=0,T=T_0$ 。
（2）设 $\alpha=+\infin$
（3）自下而上地对各内部结点 $t$ 计算 $C(T_t),|T_t|$ 以及
$g(t)=\frac{C(t)-c(T_t)}{|T_t|-1}$
$\alpha=min(\alpha,g(t))$
这里， $T_t$ 表示 $t$ 为根结点的子树， $C(T_t)$ 是对训练数据的预测误差， $T_t|$ 是 $T_t$ 的叶结点个数。
（4）对 $g(t)=\alpha$ 的内部结点 $t$ 进行剪枝，并对叶结点 $t$ 以多数表决法决定其类，得到树 $T$ 。
（5）设 $k=k+1,\alpha_k=\alpha,T_k=T$ 。
（6）如果 $T_k$ 不是由根结点及两个叶结点构成的树，则回到步骤（2）；否则 $T_k=T_n$ 。
（7）采用交叉验证法在子树序列 $T_0,T_1,...,T_n$ 中选取最优子树 $T_\alpha$ 。