Day03-《西瓜书》-决策树(DataWhale)

最新推荐文章于 2023-03-07 16:02:14 发布

liying_tt

最新推荐文章于 2023-03-07 16:02:14 发布

阅读量276

点赞数 1

分类专栏：机器学习(理论篇)

本文链接：https://blog.csdn.net/liying_tt/article/details/119007754

版权

本文介绍了决策树的基本流程和算法，包括信息熵、信息增益、ID3、C4.5和CART算法。其中，ID3使用信息增益选择特征，C4.5引入信息增益比解决偏向取值多的特征问题，CART使用基尼系数。此外，还讨论了决策树在处理连续特征、缺失值以及过拟合等方面的问题和解决方案。

摘要由CSDN通过智能技术生成

四、决策树

(decision tree)

4.1 基本流程

决策树

是通过一系列规则对数据进行分类的过程。
决策树表示给定特征条件下类的条件概率分布

决策树组成：

在这里插入图片描述

内部结点(internal node)：表示一个特征或属性
叶结点(leaf node)：一个类别或某个值

决策树生成步骤：

特征选择
决策树生成
决策树的修剪

4.2 决策树算法

4.2.1 基础知识

信息熵

自信息：
$I(X) = -log_bp(x)$
熵的理论解释：

（1）信息熵(自信息的期望)

X是一个取有限个解的离散随机变量，概率分布为：
$P(X=x_i) = p_i, (i=1,2,...,n)$
随机变量X的熵定义为：
$-\sum_{i=1}^np_ilogp_i$
$l o g$ 取 $log_2$ 时，熵的单位为比特(bit)

$l o g$ 取 $log_e$ 时，熵的单位为纳特(nat)

熵只依赖于X的分布，与X无关，则：
$-\sum_{i=1}^np_ilogp_i$
熵越大，随机变量的不确定性越大： $n\leq H(p)\leq log_n$ 。

约定：若 $p (x) = 0$ ，则 $p_ilogp_i=0$ ，当X的某个取值的概率为1时信息熵最小(最确定)；当X的各个取值的概率均等时信息熵最大(最不确定)，其值为 $l o g ∣ X ∣, ∣ X ∣$ 表示X取值的个数

举例：

当X服从0~1分布： $P (X = 1) = p; P (X = 0) = 1 - p$

熵为： $H(p)=-plog_2p-(1-p)log_2(1-p)$

（2）条件熵

联合概率分布为： $P(X=x_i,Y=y_j)=p_{ij}，i=1,2,...,n;j=1,2,3,...,m$

条件熵 $H (Y ∣ X)$ ：表示在已知随机变量X的条件下随机变量Y的不确定性，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：
$\sum_{i=1}^n p_iH(Y|X=x_i)$
【当熵和条件熵中的概率由数据估计，特别是极大似然估计，得到所对应的熵与条件熵分别称为经验熵(empirical entropy) 和经验条件熵(empirical conditional entropy)】

信息增益

信息增益：特征A对训练数据集D的信息增益，g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：
$g (D, A) = H (D) - H (D ∣ A)$

互信息(mutual information)：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
机器学习中的信息增益等价于训练数据集中类与特征的互信息
信息增益越大，意味着使用该属性来进行划分所获得的==“纯度提升越大”==

算法：

设训练数据集为D，|D| 表示样本数量，

设有K个类 $C_k,k=1,2,...,K$ ，| $C_k$ |为所属类 $C_k$ 的样本个数

特征A有n个不同的取值 ${a_1, a_2,...a_n\}$

根据A的取值将D划分为n个子集 ${D_1,,D_2,...,D_n\}$ 。| $D_i$ |为 $D_i$ 的样本数量

子集 $D_i$ 中属于类 $C_k$ 的样本集合为 $D_{ik}$ ，| $D_{ik}$ |为 $D_{ik}$ 的样本个数

输入：训练集D 和特征A
- 计算D的经验熵H(D)
  $-\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$
- 计算特征A对D的经验条件熵H(D|A)
  $\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)$
- 计算信息增益
  $G a i n (D, A) = g (D, A) = H (D) - H (D ∣ A)$

流程：

决定分类属性
建立一个结点N
如果数据都属于同一类，N就是树叶，在树叶上标出所属的类；如果没有其他属性可以考虑，N也是树叶，按照少数服从多数的原则标出所属的类别
否则，根据条件熵或信息增益选择最佳属性作为结点N的测试属性
结点属性选定后，对于该属性中的每一个值建立子树

信息增益比(增益率)

修正信息增益偏向于选择取值较多的特征的问题

定义：信息增益与训练数据集D关于特征A的值的熵之比
$g_R(D,A) = \frac{g(D,A)}{H_A(D)}$

最低0.47元/天解锁文章

liying_tt

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Day03-《西瓜书》-决策树(DataWhale)

四、决策树(decision tree)4.1 基本流程决策树是通过一系列规则对数据进行分类的过程。决策树表示给定特征条件下类的条件概率分布决策树组成：内部结点(internal node)：表示一个特征或属性叶结点(leaf node)：一个类别或某个值决策树生成步骤：特征选择决策树生成决策树的修剪4.2 决策树算法4.2.1 基础知识信息熵自信息：I(X)=−logbp(x)I(X) = -log_bp(x)I(X)=−logbp(x)熵的理论解释
复制链接

扫一扫

专栏目录