二十四.决策树之ID3算法和C4.5算法原理

最新推荐文章于 2024-06-11 16:08:33 发布

stackooooover

最新推荐文章于 2024-06-11 16:08:33 发布

阅读量355

点赞数

分类专栏：机器学习理论基础

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118677881

版权

机器学习理论基础专栏收录该内容

39 篇文章 8 订阅

订阅专栏

1.概述

决策树算法主要有两个关键点：

(1).划分依据

当前节点应该用样本的哪个特征进行分裂。

(2)分配准则

子节点中应该包含哪些样本。

2.ID3算法

(1)信息增益

信息增益又叫互信息，它衡量了已知一个变量的情况下，另一个变量不确定性减少的程度：
$\begin{aligned} I(X,Y)&=-\sum_{X,Y}P(X,Y)\log\frac{P(X,Y)}{P(X)P(Y)}\\ &= H(X)-H(X|Y)\\ &=H(Y)-H(Y|X) \end{aligned}$

(2)ID3算法的流程

ID3算法选择信息增益最大的特征，作为当前节点的分裂依据，具体地说：
a.计算样本集 $D$ 的信息熵：
$\begin{aligned} H(D)&=-\sum_{C_{i}\in C}P(C_{i})\log P(C_{i}) \\ &= -\sum_{C_{i}\in C}\frac{|C_{i}|}{|D|}\log\frac{|C_{i}|}{|D|} \end{aligned}$
其中， $D$ 为样本集， $∣ D ∣$ 是样本总数； $C$ 为类别集， $C_{i}$ 为类别为 $C_{i}$ 的样本集， $C_{i}|$ 为该类别样本数。
b.计算样本集 $D$ 在特征 $A$ 下的条件熵：
$H(D|A)=-\sum_{A_{i}\in A}\frac{|A_{i}|}{|D|}\sum_{A_{ij}\in A_{i}}\frac{|A_{ij}|}{|A_{i}|}\log \frac{|A_{ij}|}{|A_{i}|}$
其中， $A_{i}$ 为特征 $A$ 的不同取值， $A_{ij}$ 为取值为 $A_{i}$ 的样本的不同类别。
c.计算信息增益：
$I (D, A) = H (D) - H (D ∣ A)$
d.计算样本集的所有特征的信息增益，选择增益最大的特征作为分裂依据；被分裂的特征有 $n$ 个取值，则将样本根据特征的取值划分到 $n$ 个子节点中。重复以上过程直到最后一个特征。

(3)ID3算法的不足

a.当特征为连续值时，无法处理。
b.取值较多的特征信息增益比较大。
c.无法处理缺失值。
d.无法处理过拟合问题。

3.C4.5算法

针对ID3算法的不足，C4.5算法做了以下改进。

(1)处理连续值

在处理连续值时，C4.5将连续特征离散化，具体做法为：
数据集 $D$ 的特征 $A$ 有 $m$ 个取值，从小到大排列为：
$A_{1},A_{2},A_{3},...,A_{m})$
划分 $m - 1$ 个取值点：
$T_{1},T_{2},T_{3},...,T_{m-1})$
其中：
$T_{i}=\frac{A_{i}+A_{i+1}}{2}$
将特征值小于 $T_{i}$ 的样本划分到左样本集 $D_{T}^{-}$ ，特征值大于 $T_{i}$ 的样本划分到右样本集 $D_{T}^{+}$ ，计算其作为二元离散值时的增益比，参与所有特征最大增益比的选择。
需要注意的是，特征 $A$ 的某一个划分点在本轮分裂时被选择为分裂点，在下一轮特征选择时，特征 $A$ 的其余的其余划分点会继续参与选择，知道所有划分点选择完毕。

(2)信息增益比

为了解决取值较多的特征信息增益比较大的问题，C4.5将特征选择标准从信息增益改成了信息增益比：
$I_{R}(D,A)=\frac{I(D,A)}{H_{A}(D)}$
其中：
$H_{A}(D)=\sum_{A_{i}\in A}\frac{|A_{i}|}{|D|}\log \frac{|A_{i}|}{|D|}$
从而使特征较多的信息增益获得相应缩放。

(3)缺失值的处理

缺失值的处理主要面临以下两个问题：
a.选择划分特征时缺失值的处理
对每个样本设置一个权重,样本根据是否有特征 $A$ 分为两部分。例如， $D_{1}$ 为含有特征 $A$ 的样本集， $D_{2}$ 为不含特征 $A$ 的样本集，赋予它们权值。将加权的 $D_{2}$ 数量与加权总样本的比例作为一个系数，乘以 $D_{1}$ 的加权增益信息比。
b.划分样本时怎么处理在该特征上有缺失的样本
将缺失特征的样本同时划入所有子节点，根据子节点的样本数量，重新调整缺失特征的样本的系数。

(4)正则化剪枝

a.先剪枝：在生成决策树的过程中，分别计算节点分裂前和分裂后的精度，选择精度较高的方案。
b.后剪枝：决策树生成后，自下向上的去除非子节点，然后计算去除前后的精度，选择精度较高的方案。

(5)C4.5的不足

a.C4.5和ID3算法一样，生成的都是多叉树，效率不如二叉树。
b.只能处理分类，不能处理回归问题。
c.熵的计算需要耗费大量的计算资源。

stackooooover

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
二十四.决策树之ID3算法和C4.5算法原理

目录1.概述(1).划分依据(2)分配准则2.ID3算法(1)信息增益(2)ID3算法的流程(3)ID3算法的不足3.C4.5算法(1)处理连续值(2)信息增益比(3)缺失值的处理(4)正则化剪枝(5)C4.5的不足1.概述决策树算法主要有两个关键点：(1).划分依据当前节点应该用样本的哪个特征进行分裂。(2)分配准则子节点中应该包含哪些样本。2.ID3算法(1)信息增益信息增益又叫互信息，它衡量了已知一个变量的情况下，另一个变量不确定性减少的程度：I(X,Y)=−∑X,YP(X,Y)l
复制链接

扫一扫