《统计学习方法》笔记05：决策树模型

最新推荐文章于 2024-08-04 21:08:26 发布

鸟恋旧林XD

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量877

点赞数

分类专栏：机器学习笔记文章标签：机器学习决策树 ID3 C4-5 CART

本文链接：https://blog.csdn.net/niaolianjiulin/article/details/76263789

版权

本文是《统计学习方法》笔记，深入解析决策树模型，涵盖预备知识（熵、条件熵和信息增益）、ID3、C4.5、CART算法的生成与剪枝，以及过拟合和信息增益比的概念。通过实例解释了决策树在分类和回归问题中的应用，并讨论了剪枝策略以避免过拟合。

摘要由CSDN通过智能技术生成

《统计学习方法》笔记05：决策树模型

决策树模型：由训练数据集估计条件概率模型。

学习算法：ID3，L4.5，CART三种。

5.1 预备知识

1. 熵

熵可用来衡量一个随机变量的概率分布的不确定性情况。当随机变量在各取值上概率相同时，熵最大。熵反映了分布的不确定性程度。当分布中各取值概率相同时，不确定性最大，则熵最大。

举例：巴西，德国，中国三国足球联赛，巴西和德国取胜概率远大于中国，不确定性小，可以看做“熵”小；而巴西，德国，阿根廷联赛，三者取胜概率相近，不确定性大，可以看做“熵” 大。计算公式如：

H (X) = - \sum i = 0 n p i \cdot log (p i)

$H(X)=-\sum_{i=0}^np_i\cdot\log(p_i)$
随机变量X共有n种取值，每种取值上的概率与对数乘积的总和。
当各取值上概率相同时，熵最大：

0 \leq H (X) \leq log (n)

$0\le{H(X)}\le\log(n)$
推导如下：

H (X) \leq - \sum i = 0 n 1 n \cdot log 1 n = - (log 1 - log n) = log n

$H(X)\le{-\sum_{i=0}^n}\frac{1}{n}\cdot\log\frac{1}{n}=-(\log1-\log{n})=\log{n}$
当随机变量只取2个值时，当取值概率为0/1时，熵为0，此时完全没有不确定性。

2.条件熵

如上，熵可反映随机变量X的概率分布的不确定性。有时候，我们还获得了一些和X有关其他信息，将有助于确定X在某些取值上的概率变化，这时X概率分布的不确定性可能会降低。已知其他信息的情况下，X的熵就成了条件熵。

举例：巴西，德国，阿根廷联赛，三者取胜概率相近，不确定性大，“熵” 大；但我们得知巴西全体队员拉肚子，那其获胜可能性变小。球赛整体熵会变小。在这种情况下，就是条件熵。

已知随机变量(X,Y)的联合概率分布为：

P (X = x i, Y = y j) = p i j

$P(X=x_i,Y=y_j)=p_{ij}$
条件熵H(Y|X)表示已知X情况下，Y的分布的不确定性。计算如下：

H (Y | X) = \sum i = 0 n p (X = x i) \cdot H (Y | X = x i)

$H(Y|X)=\sum_{i=0}^np(X=x_i)\cdot{H(Y|X=x_i)}$
X的取值有n种。

2. 信息增益

信息增益：得知了X信息，使得类Y的信息不确定性减小的程度。也叫作互信息（mutual information），决策树中的信息增益等价于训练集中的类与特征的互信息。

在监督学习中，特征A对训练集D的信息增益：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$
很明显，信息增益越大，说明不确定性减小的程度越大，该特征越强。该特征的条件熵很小。

算法：求特征A的信息增益

特征A，有n个取值，每个取值下的样本个数为 $D_n$ ，其和为样本总数。

输出： $g(D,A)$

（1）计算经验熵H(D)。当从数据估计中得到概率时，称为经验熵。

$H (D) = - \sum k = 1 K | L k | | D | \cdot l o g 2 | L k | | D |$ $H(D)=-\sum_{k=1}^K\frac{|L_k|}{|D|}\cdot{log_2{\frac{|L_k|}{|D|}}}$
（2）计算经验条件熵H(D|A):
$H (D | A) = - \sum i = 1 n | D i | | D | \cdot H (D i)$ $H(D|A)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\cdot{H(D_i)}$
$H (D i) = - \sum k = 1 K | D i k | D i \cdot l o g 2 | D i k | D i$ $H(D_i)=-\sum_{k=1}^K\frac{|D_{ik}|}{D_i}\cdot{log_2{\frac{|D_{ik}|}{D_i}}}$
（3）计算特征A的信息增益gain：
$g (D, A) = H (D) - H (D | A)$ $g(D,A)=H(D)-H(D|A)$