决策树——分类树

最新推荐文章于 2023-08-29 20:16:55 发布

Dracen_Wu

最新推荐文章于 2023-08-29 20:16:55 发布

阅读量521

点赞数 2

分类专栏：机器学习文章标签：决策树分类树机器学习算法

本文链接：https://blog.csdn.net/DragonBark/article/details/100936795

版权

本文深入探讨决策树的构建过程，重点讲解选择划分特征的标准，包括信息增益、增益率和基尼指数的概念及计算方法。同时，阐述了决策树的剪枝策略，包括预剪枝和后剪枝，以防止过拟合，提高模型泛化能力。

摘要由CSDN通过智能技术生成

决策树——分类树

一、选择划分特征的标准

构建分类树，每一层都要选择合适的划分特征。如果数据集 $D$ 使用了某个特征 $A_i$ 划分后，它的数据纯度提高了，那么就说明特征 $A_i$ 适合被作为此分支的划分特征。选取划分特征有以下三种方法：

（1）信息增益

信息熵

熵，在物理中表示一个体系混乱程度的度量，熵越高，混乱程度越高。

信息熵（ $E n t (x)$ ）是一个系统有序化程度的度量。 $E n t (x)$ 越小，则某个样本集合中的元素纯度越高。

假如一个随机变量X取值为 $X=\left \{ x_1,x_2,...,x_n \right \}$ ，每一种取到的概率分别为 $\left \{ p_1,p_2,...,p_n \right \}$ ，则 $X$ 的信息熵的公式为：
$Ent(X)=-\sum_{i=1}^{n}p_i\log_2p_i$

信息增益

信息增益，是数据集 $D$ 按照其中的某个特征 $A_i$ 所进行划分之后，数据集 $D$ 的纯度提升的度量。一般而言，信息增益越大，意味着使用 $A^*$ 这个特征来划分数据集 $D$ 所获得的的纯度提升越大。

一个数据集 $D$ ，对于 $D$ 的最终分类 $C=\left \{ c_1,c_2,...,c_k \right \}$ ，可以根据集合 $C$ ，计算数据集 $D$ 的根节点信息熵 $E n t (D)$ 。

假设数据集 $D$ 包含 $m$ 种特征 $A=\left \{ A_1,A_2,...,A_m \right \}$ ，对于每个特征 $a_i$ ，其又包含 $n$ 个取值为 $\left\{a_1,a_2,...,a_n\right\}$ 的离散值。设数据集在 $A_i$ 这个特征上的分类为 $D_{A_i}$ ，那么特征 $A_i$ 的信息熵为：
$Ent(D_{A_i})=-\sum_{v=a_1}^{a_n}\frac{\left | D_v \right |}{\left | D \right |}Ent(D_v)$
所以，对于每个特征 $A_i$ 对样本集合 $D$ 进行划分所获得的信息增益为：