统计学习方法笔记——决策树

最新推荐文章于 2023-02-13 15:18:08 发布

朱红的泪

最新推荐文章于 2023-02-13 15:18:08 发布

阅读量636

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u012457196/article/details/81836158

版权

本文详细介绍了决策树的学习方法，包括决策树模型、特征选择、生成和剪枝过程。讲解了ID3、C4.5和CART算法，特征选择中信息增益、信息增益比和基尼指数的概念，以及决策树防止过拟合的剪枝策略。

摘要由CSDN通过智能技术生成

简介

决策树是一种基本的分类与回归方法，其主要的优点为模型具有可读性，分类速度快。学习时，根据损失函数最小化的原则建立决策树模型。预测时，利用决策树模型进行分类。决策树学习通常有三个步骤特征选择、决策树生成和决策树的裁剪。

决策树模型与学习

决策树模型

定义5.1（决策树）分类决策树模型是一种描述对实例进行分类的树形结构。结点有两种类型，内部结点表示一个特征或属性，叶结点表示一个类。
用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点；这时，每一个子结点对应着该特征的一个取值，如此递归下去，直到到达叶子结点。最后将实例分到叶结点的类中。

决策时与if-then规则

将决策树换成if-then规则过程如下：由决策树的根结点大叶结点的每一条路径构建一条规则；路径内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。其有一个重要性质为：互斥且完备。也就是每一个实例都有路径覆盖且只有一条。

决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义特征空间的一个划分。将特征空间划分为互不相交的单元区域，并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元。假设X为特征的随机变量，Y为类的随机变量。那这个条件概率分布为 $P(Y|X)$ ，各个叶结点上的条件概率往往偏向某一个类，即属于某一类的概率较大。决策树分类时将该结点的实例分到条件概率大的那一类去。

决策树学习

决策树学习的本质是从训练数据归纳出一组分类规则，选择一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。使用损失函数来选择，损失函数通常是正则化的极大似然函数。学习的策略是以损失函数为目标函数的最小化。最优问题是NP问题，所以求解次最优解。

决策树学习的算法通常是递归选择最优特征，并根据该特征对训练数据进行分割。这一过程产生的决策树可能产生过拟合，需要自下而上进行剪枝。具体就是去掉过于细分的叶结点，使其退回父结点，然后将父结点或更高结点改为新的叶结点。

决策树的生成过程对应于模型的局部选择，只考虑局部最优。剪枝对应于模型的全局选择，考虑全局最优。常用的学习算法为ID3、C4.5与CART。

特征选择

特征选择问题

特征选择在于选取对数据有分类能力的特征。通常特征选择的准则是信息增益或信息增益比。
直观上说，如果一个特征具有更好的分类能力，或者说按照这个特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那么就应该选择这个特征。信息增益能很好的表示这个准则。

信息增益

熵(entropy)是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量，其概率分布为：

P (X = x i) = p i ， i = 1, 2, . . ., n

$P(X=x_i)=p_i ，\ i=1,2,...,n$
则随机变量X的熵定义为：

H (X) = - \sum i = 1 n p i l o g p i (5.1)

$H(X) = -\sum^{n}_{i=1}p_i log\ p_i \tag{5.1}$
在式(5.1)中，若

pi=0 p i = 0 $p_i =0$ ，则定义

0log 0=0 0 l o g 0 = 0 $0log\ 0=0$ 。通常对数以2为底或者以e为底（自然对数），此时熵的单位分别称作比特(bit)或纳特(nat)。由定义可知，熵只依赖于X的概率分布，与X的取址无关，所以X的熵也可记作

H(p) H ( p ) $H(p)$ ：

H (p) = - \sum i = 1 n p i l o g p i (5.2)

$H(p) = -\sum^{n}_{i=1}p_i log\ p_i \tag{5.2}$
熵越大，随机变量的不确定性就却大，从定义可以验证：

0 \leq H (p) \leq l o g n (5.3)

$0 \leq H(p) \leq log\ n \tag{5.3}$
当随机变量只取两个值，例如0，1时，熵的变化曲线如正弦图。当p=0或p=1时，H(p)=0，随机变量完全没有不确定性，当p=0.5时，熵取值最大，随机变量不确定性最大。
条件熵

H(Y|X) H ( Y | X ) $H(Y|X)$ 表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵

H(Y|X) H ( Y | X ) $H(Y|X)$ ，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

H (Y | X) = \sum i = 1 n p i H (Y | X = x i) (5.5)

$H(Y|X)=\sum^n_{i=1}p_i H(Y|X=x_i) \tag{5.5}$

当熵和条件熵中的概率由数据估计（如极大似然估计）得到时，对应的熵与条件熵分别称为经验熵和经验条件熵。
信息增益(information gain)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。

定义5.2（信息增益）特征A对训练数据集D的信息增益 $g(D,A)$ ，定义为集合D的经验熵 $H(D)$ 与特征A给定条件下D的经验条件熵 $H(D|A)$ 之差，即

g (D, A) = H (D) - H (D | A) (5.6)

$g(D,A)=H(D)-H(D|A) \tag{5.6}$
一般的，熵与条件熵之差称为 互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

根据信息增益准则的特征选择方法是：对训练数据集D，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。

设训练数据集为D， $|D|$ 表示其样本容量，即样本个数，设有K个类 $C_k,k=1,2,...,K$ ， $|C_k|$ 为属于类 $C_k$ 的样本个数。设特征A有n个不同的取值，根据特征A的取值将D划分为n个子集 $D_1,D_2...,D_n$ ， $|D_i|$ 为 $D_i$ 的样本个数，记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 Dik=Di∩C