决策树（一）

最新推荐文章于 2024-05-22 21:01:08 发布

littlely_ll

最新推荐文章于 2024-05-22 21:01:08 发布

阅读量570

点赞数

分类专栏：机器学习文章标签：决策树信息增益熵

本文链接：https://blog.csdn.net/littlely_ll/article/details/53816973

版权

本文介绍了决策树的基本概念，包括信息增益、熵和条件熵。详细阐述了ID3算法和C4.5算法的工作原理，以及如何通过信息增益和信息增益比选择特征。此外，还提到了决策树的剪枝过程以及C5.0算法在R语言中的实现和优缺点。

摘要由CSDN通过智能技术生成

1. 特征选择

1.1 信息增益

熵（entropy）是表示随机变量不确定性的度量，设x是一个取有限个值的离散随机变量，其概率分布为：
$P(X=x_i)=p_i,i=1,2,\cdots,n$
则随机变量X的熵定义为
$H(X)=-\sum_{i=1}^np_ilog p_i$
熵只依赖于X的分布，与X的取值无关，所以可将X的熵记做 $H (p)$ ,即
$H(p)=-\sum_{i=1}^np_ilogp_i$
条件熵 $P (Y ∣ X)$ 表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下Y的条件熵为
$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i),\\ 这里，p_i=P(X=x_i),i=1,2,\cdots,n.$
信息增益（information gain）表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
定义： 特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A）之差，即
$g (D, A) = H (D) - H (D ∣ A)$
设：D为训练数据集，|D|为其样本容量，即样本个数。设有K个类 $C_k, k=1,2,\cdots,K$ , $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k=1}^K|C_k|=|D|$ .设特征A有n个不同的取值