决策树概念梳理

最新推荐文章于 2022-11-13 22:16:13 发布

Mr_Bei

最新推荐文章于 2022-11-13 22:16:13 发布

阅读量502

点赞数 1

分类专栏：机器学习文章标签：机器学习决策树信息增益信息增益比信息熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_Bei/article/details/102548617

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

决策树定义

决策树构建基本步骤

为什么找到最好的分割点是关键

如何量化纯度

信息增益比

决策树算法

决策树定义

决策树（Decision Tree）是一种简单且广泛使用的分类器，一种非参数的监督学习方法，即通过训练数据（训练集）来构建模型的决策规则，可以对未知的数据（测试集）进行决策分类。

决策树构建基本步骤

1. 开始，所有记录看作一个节点

2. 遍历每个变量的每一种分割方式，找到最好的分割点（关键）

3. 分割成两个节点N1和N2

4. 对N1和N2分别继续执行2-3步，直到每个节点足够“纯”为止

为什么找到最好的分割点是关键

一个分割点可以将当前的所有节点分为两类，如果使得分类后的集合只有一种分类结果，则该集合纯，如果分类后的集合还有许多分类结果，则该集合不纯。

如果一个分割点可以将当前的所有节点分为两类，使得每一类都很纯，这就是一个好分割点。

一般很难找到这样的分割点使分割后每一类都很纯，所以构建决策树采用贪心算法，使分割后纯度差最大的情况作为分割点，那么需要对这个纯度差进行量化。

如何量化纯度

信息熵

使用信息熵来衡量这种不确定度（非纯度），熵越大，越不纯。

常用的信息熵1：熵（Entroty）

常用的信息熵2：基尼指数（Gini Index）

信息增益（偏向于取值较多的特征）

我们希望在分类以后能够降低熵的大小，使之变纯一些，这种分类后熵变小的判定标准可以用信息增益（Information Gain）来衡量，它表示两个信息熵的差值，信息增益越大越佳，区分样本的能力更强，选择信息增益最大的特征属性进行分类最佳。

信息增益公式为：g(D,A) = H(D) - H(D|A)

g(D,A)：样本D基于特征A分类后的信息增益

H(D)：样本D原本的信息熵

H(D|A) ：样本D基于特征A分类后的信息熵

信息增益比（偏向于取值较少的特征）

问题：信息增益存在偏向于选择取值较多的特征（即分的类别交多的特征）的问题

改进：引入惩罚机制，对树分支过多的情况进行惩罚，来减少信息增益率失效的几率

信息增益比公式：

惩罚参数InstrinsicInfo计算公式：

决策树算法（算法之间特征选择的标准不同）

1. ID3：在决策树生成过程中，以信息增益为特征选择的准则。

缺点：ID3用信息增益作为标准，存在偏向于选择取值较多的特征的问题

2. C4.5：在决策树生成过程中，以信息增益比为特征选择的准则。

改进：相比信息增益，信息增益比引入惩罚机制，对树分支过多的情况进行惩罚，偏向于取值较少的特征

3. CART：对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树概念梳理

目录决策树定义决策树构建基本步骤为什么找到最好的分割点是关键如何量化纯度信息熵信息增益信息增益比决策树算法决策树定义决策树（Decision Tree）是一种简单且广泛使用的分类器，一种非参数的监督学习方法，即通过训练数据（训练集）来构建模型的决策规则，可以对未知的数据（测试集）进行决策分类。决策树构建基本步骤1. 开始，所有记录看作一个节点...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。