决策树

最新推荐文章于 2024-10-09 23:54:44 发布

icodeblocks

最新推荐文章于 2024-10-09 23:54:44 发布

阅读量136

点赞数

分类专栏：机器学习文章标签：决策树机器学习

本文链接：https://blog.csdn.net/icodeblocks/article/details/109065668

版权

本文详细介绍了决策树的基本概念、信息熵和信息增益，接着讲解了ID3算法的工作原理及存在的问题。接着介绍了C4.5算法，它是ID3的改进版，引入了信息增益率来解决偏好具有大量值特征的问题。最后，讨论了CART算法，它使用基尼指数来选择最佳划分，并且能够处理离散和连续特征，可用于分类和回归问题。

摘要由CSDN通过智能技术生成

决策树1

基本概念

在介绍决策树之前，我们需要先学习生成决策树中必不可上的一环—信息熵。
熵表示的是混乱的程度，对应在分类问题上可以看做集合中标签不确定的程度。对一个标签的集合，其中个标签的比例相当，没有哪一个标签的比例太高或太低，这样确定某一个标签的种类就越难。或者说这个集合中标签的纯度。
为了表示这种不确定的程度，我们引入信息熵的概念。
设X是一个取有限个值的离散随机变量，其概率分布为：
$P(X=x_i)=p_i, i=1,2, ... , n$
则随机变量X的熵定义为：
$H(X)=- ∑ p_i * logp_i, i=1,2, ... , n$
在这里插入图片描述
$H (X)$ 与 $p$ 的关系用图像表示如上

从图上可以看出，当 $P = 0$ 或 $P = 1$ 时， $H (p) = 0$ ,随机变量完全没有不确定性，当 $p = 0.5$ 时， $H (p) = 1$ ,此时随机变量的不确定性最大。
条件熵：
条件熵（conditional entropy）：表示在一直随机变量X的条件下随机变量Y的不确定性度量。

设随机变量 $(X, Y)$ ，其联合概率分布为$ P(X, Y) = p_{ij}(i=1,2, … , n; j=1,2, … , m) $，随机变量$ X $给定的条件下随机变量$ Y $的条件熵$ H(Y|X)$，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

$H(Y|X)=∑ p_i*H(Y|X=x_i)$

信息增益为 $G a i n (X) = H (X) - H (Y ∣ X)$

ID3算法：

ID3算法按照划分的最大信息增益作为划分数据集的依据。求未划分前的数据集的信息熵，然后分别求按照每个特征划分后的条件熵（在按照某一个特征划分的条件下，划分后数据集的熵），信息增益就是划分后的熵减去划分前的熵，那个标签的信息增益最大，接下来就按找那个特征划分。因为熵代表的信息的不确定性，我们不断的根据特征划分数据集，剩下的单个数据集会越来越同一，越来越规整，这使得整体熵不断的减少，按照每次最大的信息增益就是一种贪心算法。以为划分后的数据集的大小小于以前的数据集，并且具有同样的结构，能再一次用最大信息增益做划分，采用了分而治之的思想。

决策树是模拟决策过程中的选择，下面通过一个例子说明：