《机器学习方法（第三版）—— 李航》学习笔记（三）

HitStuHan

已于 2022-07-25 15:36:52 修改

阅读量1.8k

点赞数

分类专栏：笔记初学萌新机器学习文章标签： python 算法机器学习人工智能

于 2022-07-25 10:39:30 首次发布

本文链接：https://blog.csdn.net/hitstuhan/article/details/125967637

版权

初学萌新同时被 3 个专栏收录

15 篇文章 5 订阅

订阅专栏

笔记

7 篇文章 9 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

五、第五章决策树

决策树是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对实例分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据利用决策树模型进行分类。决策树学习包括3个步骤：特征选择、决策树生成和决策树的剪枝。

1、决策树模型与学习

决策树

分类决策树模型时一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点由两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到子结点，这时，每个子结点对应该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶节点。最后将实例分到叶节点的类中。

决策树与条件概率分布

决策树还表示给定特诊条件下类的条件概率分布，这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元或区域，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。

决策树学习

决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个都没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个。我们选择的条件概率模型应该不仅对训练数据有很好的拟合，而且对位置数据有很好的预测。

2、特征选择

特征选择在于选取具有分类能力的特征，这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的准则是信息增益或信息增益比。

信息增益

首先给出熵与条件熵的定义：

在信息论与概率统计中，熵是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量，其概率分布为

$P(X=x_{i}) = p_{i},i=1,2,...n$

则随机变量X的熵的定义为

$H(X) = -\sum_{i=1}^{N}p_{i}logp_{i}$

若其中 $p_{i} = 0$ ，则定义H(X)=0。

设有随机变量(X,Y)，其联合概率分布为

$P(X=x_{i},Y=y_{i}) = p_{ij} , i=1,2,...,n , j =1,2,...,n$

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

$H(Y|X) = \sum_{i=1}^{n}p_{i}H(Y|X=x_{i})$

这里， $p_{i} = P(X=x_{i}),i=1,2,...,n$

当熵和条件熵中的概率由数据估计得到时，所对应的熵与条件熵分别称为经验熵和经验条件熵。

信息增益：

特征A对训练数据集D的信息增益g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即

$g(D,A)=H(D)-H(D|A)$

一般地，熵H(Y)与条件熵H(Y|X)之差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息，也就是

$g(D,A)=H(Y)-H(Y|A)$

信息增益比：

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。这是特征选择的另一准则。

特征A对训练数据集D的信息增益比 $g_{R}(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集D关系特征A的值的熵 $H_{A}(D)$ 之比，即

$g_{D}(D,A)=\frac{g(D,A)}{H_{A}(D)}$

3、决策树生成

ID3算法

输入：训练数据集D，特征集A阈值 $\varepsilon$

输出：决策树T

(1) 若D中所有实例属于同一类 $C_{k}$ ，则T为单结点树，并将 $C_{k}$ 作为该结点的标记，返回T；

(2) 若A = $\varnothing$ ，则T为单结点，并将D中实例数最大的类 $C_{k}$ 作为该结点的类标记，返回T；

(3) 否则，计算A中各特征对D的信息增益，选择信息增益最大的特征 $A_{g}$ ；

(4) 如果 $A_{g}$ 的信息增益比小于阈值 $\varepsilon$ ，则置T为单结点树，并将D中实例数最大的类 $C_{k}$ 作为该结点的类作为标记，返回T；

(5) 否则，对 $A_{g}$ 的每一可能取值ai，依照 $A_{g}$ =ai将D分割为若干非空子集Di，将Di中实例数最大的的类作为标记，构建子结点，由结点及其子结点构成树T，返回T；

(6) 对第i个子结点，以Di为训练集，以A-{Ag}为特征集，递归的调用步骤(1)~步骤(5)，得到子树Ti，返回T；

C4.5算法与ID3算法相比，C4.5算法在生成过程中，用信息增益比来选择特征。

4、决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。过拟合的原因在于学习时过多地考虑如何提高对训练数据正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。

树的剪枝算法：

输入：生成算法产生的整个树T，参数α。

输出：修剪后的子树Tα

(1) 计算每个结点的经验熵。

(2) 递归地从树的叶结点向上回缩。

设一组叶结点回缩到其父结点之前与之后的整体树分别为TB与TA，其对应的损失函数值分别是Cα(TB)与Cα(TA)，如果有Cα(TB)≤Cα(TA)则进行剪枝，即将父结点变为新的叶结点。

(3) 返回步骤(2)，直至不能继续为止，得到损失函数最小的子树Tα。

CART算法

分类与回归树(classification and regression tree,CART)模型是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。

CART 是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元熵确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。

CART算法由两步组成：
(1) 决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大。

(2) 决策树剪枝：用验证集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

基尼指数：

对于给定的样本集合D，其基尼系数为

$Gini(D) = 1 - \sum_{k=1}^{K}(\frac{|C_{k}|}{|D|})^2$