《统计学习方法》：第五章：决策树

最新推荐文章于 2024-08-04 21:08:26 发布

菜小白—NLP

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/ACM_hades/article/details/90043691

版权

本文详细介绍了决策树的学习过程，包括决策树模型、特征选择、决策树的生成与剪枝，以及常用的算法如ID3、C4.5和CART。通过信息增益和信息增益比选择最优特征，利用递归方式构建决策树，并通过剪枝避免过拟合，提高泛化能力。CART算法特别强调生成二叉树，并用基尼指数进行特征选择。

摘要由CSDN通过智能技术生成

一、决策树模型与学习：

1、决策树模型：

决策树：决策树由节点和有向边组成，节点有两种类型：一种是内部节点，其表示一个特征或属性，一种是叶节点表示一个类别。

2、决策树与条件概率分布：

决策树可以表示为：给定特征条件下类的条件概率分布；这一条件概率分布定义在特征空间的一个划分上；这个划分将特征空间划分为互不相交的单元，并且在每个单元上定义一个类的概率分布；这个类的概率分布其实质就是在这个单元中的样本属于某一类的概率，可以理解为一个长度为类个数的列表，列表中的元素就是该单元中的样本属于某一类的概率，这个概率一般是通过统计训练样本得到；每个单元的类的概率分布就构成了决策树所表示的条件概率分布
决策树中的每条路径对应于划分中的一个单元。即决策树的每个叶节点对应于一个单元。
假设 $X$ 为表示特征向量的随机变量， $Y$ 表示类的随机变量，条件概率分布可以表示为 $P (Y ∣ X)$ 。 $X$ 取值为给定划分下单元的集合(实质上 $X$ 的取值应该是某个样本，但样本一定是落在某个单元中的，而每个单元类的概率分布是一样的，所以可以理解为 $X$ 的取值为某个划分单元)； $Y$ 取值为类的集合。
各叶结点(单元)往往偏向某一个类，即属于概率较大的某一类。决策树分类时将该叶结点(单元)的实例强行分到条件概率大的那一类中去。
上面的描述可能有点抽象小面用一个列子来解释一下：

图1是一个划分，图2是一个概率分布，图3是决策树，他们的对应关系我用红色数字标出来了；从图2我们可以看出：单元1全是+1的样本，单元2全是-1的样本，单元3全是-1的样本数多于+1的样本数，单元4全是+1的样本数多于-1的样本数。

3、决策树的学习：

假设训练集为： $D=\{(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N )\}$ 其中 $x_i=(x_i^1,x_i^2,…,x_i^n ),y=\{1,2,…,K\}$
决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练集不相矛盾的决策树可能有多个，我们需要的是一个于训练集矛盾较小同时又有很好的泛化能力的决策树。
总统思路：
- 决策树学习的算法通常是一个递归地选择最优特征的过程，并根据该最优特征对训练数据进行分割，使得分割得到的子集数据集有一个最好的分类。这一过程对应着对特征空间的划分，也对应着决策树的构建。
过程：
- 开始，构建根结点，将所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。
- 然后递归向下处理子集：
  - 如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去；
  - 如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点。如此递归地进行下去，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。
- 最后每个子集都被分到叶结点上，即都有了明确的类。这就生成了一棵决策树
剪枝：
- 以上方法生成的决策树可能会发生过拟合的现象。
- 这时我们需要对已生成的树自下而上进行剪枝，将树变得更简单，从而使它具有更好的泛化能力。
- 具体说就是：去掉过于细分的叶结点，使其回退到父结点，甚至更高的结点，然后将父结点或更高的结点改为新的叶结点。
决策树学习算法主要包含：特征选择、决策树的生成与决策树的剪枝。
决策树学习常用的算法有：ID3、C45与CART

二、特征选择：

在上面决策树的学习过程中需要选择一个最优的特征；那么什么是最优特征？怎样选择最优特征？
最优特征指的是对训练数据具有分类能力的特征。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。
通常选择最优特征的准则是信息增益或信息增益比

1、信息增益：

熵(entropy)：
- 在信息论与概率统计中，熵是表示随机变量不确定性的度量.
- 设 $X$ 是一个取有限个值的离散随机变量，其概率分布为: $P(X=x_i )=p_i; i=1，2，，n$ 则随机变量 $X$ 的熵定义为: $H(X)=-∑_i^np_i log⁡p_i$ 其中规定 $0 l o g 0 = 0$ ， $l o g$ 的底可以是 $2$ 或 $e$ 对应的熵的单位是比特(bit)或纳特(nat)
- 熵越大随机变量的不确定性就越大。
- 当随机变量只取两个值：1，0时，即 $X$ 的分布为： $P (X = 1) = p ， P (X = 0) = 1 - p ， 0 \leq p \leq 1$ 熵的公式如下： $H(p)=-plog_2 p-(1-p) log_2⁡(1-p)$ 变化图如下：
- 当 $p = 0$ 或 $p = 1$ 时 $H (p) = 0$ ，随机变量完全没有不确定性.当 $p = 0.5$ 时， $H (p) = 1$ ，熵取值最大，随机变量不确定性最大.
条件熵(conditional entropy)：
- 设有随机变量 $(X ， y)$ ，其联合概率分布为: $P(X=x_i,Y=y_j )=P_{ij}，i=1,2,…,n；j=1,2,…,m$
- 条件熵 $H (Y ∣ X)$ 表示在己知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性.定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望: $H(Y│X)=∑_{i=1}^np_i H(Y│X=x_i )$ 这里: $p_i=P(X=x_i )，i=1,2,…,n$ .
当熵和条件熵公式中的概率由数据估计(特别是极大似然估计)得到时，所对应的熵与条件熵分别称为经验熵和经验条件熵
信息增益(information gain)：
- 信息增益：表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度.
- 特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即： $g (D, A) = H (D) - H (D ∣ A)$
- 熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息.决策树学习中的信息增益等价于训练数据集中类与特征的互信息.
信息增益算法：
- 设训练数据集为 $D$ ， $∣ ∣$ 表示样本个数。类别为： $C_k，k=1,2,…,K$ ； $C_k|$ 表示属于 $C_k$ 的样本个数.设特征 $A$ 有 $n$ 个不同的取值 ${a_1,a_2,…,a_n}$ ，根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_1,D_2,…,D_n$ 。记子集 $D_i$ ，中属于类 $C_k$ ，的样本的集合为 $D_{ik}$
- 输入：训练数据集 $D$ 和特征 $A$ ；
- 输出：特征 $A$ 对训练集 $D$ 的信息增益 $g (D, A)$
- 第一步：计算数据集 $D$ 的经验熵 $H (D)$ : $H(D)=-∑_{k=1}^K\frac{|C_k |}{|D|} log_2⁡\frac{|C_k |}{|D|}$
- 第二步：计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$ : $H(D|A)=∑_{i=1}^n\frac{|D_i |}{|D|} H(D_i)=-∑_{i=1}^n\frac{|D_i |}{|D|} ∑_{k=1}^K\frac{|C_{ik} |}{|D_i |} log_2\frac{⁡|C_{ik} |}{|D_i |}$