决策树

最新推荐文章于 2024-04-19 10:58:56 发布

chloe科

最新推荐文章于 2024-04-19 10:58:56 发布

阅读量314

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/chloe1993/article/details/104590948

版权

模型

用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点。
在这里插入图片描述
我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。
递归地选择最优特征：开始，构建根节点，选择一个最优特征。按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。不断构建叶节点和新的最优特征，对其进行分割。直至所有训练数据子集被基本正确分类，或者没有合适的特征为止。这一过程结束后，生成的树可能会发生过拟合现象，需对其自下而上进行剪枝，将树变得更简单，从而增强泛化能力。如果特征数量很多，也可以在开始时，对特征进行选择，只留下对训练数据有足够分类能力的特征。

特征选择的准则为，信息增益或信息增益比。
首先介绍一下熵的概念。
熵(entropy)：表示随机变量不确定性的度量，熵越大，随机变量的不确定性就越大。
$H(X)=-\sum{P_i}logP_i$
条件熵：表示在已知随机变量X的条件下随机变量Y的不确定性。
$H(Y|X)=\sum{P_iH(Y|X=x_i)}$
$P_i=P(X=x_i)$
信息增益：特征A对训练数据D的信息增益 $g (D, A)$ ，定义为集合D的经验熵 $H (D)$ 与特征A给定条件下D的经验条件熵 $H (D ∣ A)$ 之差，即：
$g (D, A) = H (D) - H (D ∣ A)$
显然，信息增益大的特征具有更强的分类能力。

如何计算 $g (D, A)$ :
(1)计算 $H (D)$
$H(D)=-\sum_i{\frac{|C_k|}{|D|}}log_2\frac{|C_k|}{|D|}$
(2)计算 $H (D ∣ A)$ :
$H(D|A)=\sum_i{\frac{|D_i|}{|D|}H(D_i)}=-\sum_i{\frac{|D_i|}{|D|}\sum_k\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}}$
(3)计算 $g (D, A)$ :
$g (D, A) = H (D) - H (D ∣ A)$
其中 $∣ D ∣$ 是样本个数， $C_k|$ 是属于类 $C_k$ 的样本个数，根据特征划分样本 $D_i$ ， $D_{ik}|$ 是子集 $D_i$ 中属于类 $C_k$ 的样本个数。
信息增益比：以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
$H_A(D)=-\sum_i\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$

算法

$ID_3$ 算法

在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。
具体算法：
输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\epsilon$
输出：决策树 $T$
step1. 若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单节点树，并将类 $C_k$ 作为该节点的类标记，返回

最低0.47元/天解锁文章

chloe科

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

模型用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子节点。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。递归地选择最优特征：开始，构建根节点，选择一个最优特征。按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。不断构建叶节点和新的最优特征，对其进行分割。直至所有训练数据子集被基本正确分类，或者没有合适的特...
复制链接

扫一扫