根据信息增益率构造决策树_决策树--信息增益，信息增益比，Geni指数

最新推荐文章于 2024-04-16 09:04:42 发布

awnihannun

最新推荐文章于 2024-04-16 09:04:42 发布

阅读量2.1k

点赞数

文章标签：根据信息增益率构造决策树

本文链接：https://blog.csdn.net/weixin_42518981/article/details/113492937

版权

本文介绍了决策树的构造过程，重点关注了信息增益、信息增益率和基尼指数在特征选择中的作用。通过熵和信息增益的概念，解释了如何度量数据集的纯度和不确定性。信息增益易偏向取值多的特征，而信息增益率通过引入惩罚参数进行了修正。最后，讨论了基尼指数作为另一种度量标准，用于CART算法构建二叉树。

摘要由CSDN通过智能技术生成

决策树是表示基于特征对实例进行分类的树形结构
从给定的训练数据集中，依据特征选择的准则，递归的选择最优划分特征，并根据此特征将训练数据进行分割，使得各子数据集有一个最好的分类的过程。
决策树算法3要素：

- 特征选择
- 决策树生成
- 决策树剪枝

部分理解：关于决策树生成
决策树的生成过程就是使用满足划分准则的特征不断的将数据集划分为纯度更高，不确定性更小的子集的过程。
对于当前数据集D的每一次的划分，都希望根据某特征划分之后的各个子集的纯度更高，不确定性更小。而如何度量划分数据集前后的数据集的纯度以及不确定性呢？ 答案：特征选择准则，比如：信息增益，信息增益率，基尼指数特征选择准则：目的：使用某特征对数据集划分之后，各数据子集的纯度要比划分前的数据集D的纯度高（不确定性要比划分前数据集D的不确定性低。）注意：
1. 划分后的纯度为各数据子集的纯度的加和（子集占比*子集的经验熵）。
2. 度量划分前后的纯度变化用子集的纯度之和与划分前的数据集D的纯度进行对比。特征选择的准则就是度量样本集合不确定性以及纯度的方法。本质相同，定义不同而已。特征选择的准则主要有以下三种：信息增益，信息增益率，基尼指数

首先介绍一下熵的概念以及理解：
熵：度量随机变量的不确定性。（纯度）
定义：假设随机变量X的可能取值有x1，x2， ... , xn
对于每一个可能的取值xi，其概率 P(X=xi) = pi , ( i = 1,2, ... , n)
因此随机变量X的熵：

对于样本集合D来说，随机变

最低0.47元/天解锁文章

awnihannun

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
根据信息增益率构造决策树_决策树--信息增益，信息增益比，Geni指数

决策树是表示基于特征对实例进行分类的树形结构从给定的训练数据集中，依据特征选择的准则，递归的选择最优划分特征，并根据此特征将训练数据进行分割，使得各子数据集有一个最好的分类的过程。决策树算法3要素：特征选择决策树生成决策树剪枝部分理解：关于决策树生成决策树的生成过程就是使用满足划分准则的特征不断的将数据集划分为纯度更高，不确定性更小的子集的过程。对于当前数据集D的每一次的划分，都希...
复制链接

扫一扫