决策树算法原理

最新推荐文章于 2024-08-22 17:27:46 发布

Mr终游

最新推荐文章于 2024-08-22 17:27:46 发布

阅读量1.2k

点赞数 35

分类专栏：机器学习文章标签：算法决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73426548/article/details/139928326

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

目录

二：算法原理

1.熵和信息熵

三决策树分裂指标

1.信息熵分裂：

2.Gini系数（CART）

3.信息增益率

一：介绍

决策树( Decision Tree) 又称为判定树，是数据挖掘技术中的一种重要的分类与回归方法，它是一种以树结构（包括二叉树和多叉树）形式来表达的预测分析模型。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

一般，一棵决策树包含一个根节点，若干个内部结点和若干个叶结点。

叶结点对应于决策结果，其他每个结点对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定的测试序列。决策树学习的目的是产生一棵泛化能力强，即处理未见示例强的决策树。

使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

二：算法原理

1.熵和信息熵

熵：物理意义是体系混乱程度的度量。

信息熵：表示事物不确定性的度量标准，可以根据数学中的概率计算，出现的概率就大，出现的机会就多，不确定性就小（信息熵小）。

2.信息增益

信息增益是知道了某个条件后，事件的不确定性下降的程度。写作 g(X,Y)。它的计算方式为熵减去条件熵

举个栗子：现在又一个数据集E和特征A

熵的计算：

其中Ck是这个数据集中有多少类样本，D 为E中有多少个数据集

条件熵的计算：

信息增益的计算：

信息增益越大，使用特征A来划分获得的“纯度提升”越大。因此我们可以用信息增益来进行决策树属性选择，ID3决策树学习算法就是以信息增益为准则来选择划分属性的

三决策树分裂指标

1.信息熵：

在信息世界中，熵越高，则能传输越多的信息，熵越低，传输的信息越少。比如我们在买手机的时候，我们一般要看这个手机的摄像头像素、屏幕大小、运行内存RAM、机身容量ROM、CPU等，当要考虑的因素越多，不确定因素就越大，获取的信息越多，也就是熵越大。所以信息量=熵=不确定性。

2.Gini系数（CART）

基尼系数是指国际上通用的用来衡量一个国家或地区居民收入差距的常用指标。

国际上惯例：0.2以下为收入绝对平均，0.2-0.3为收入比较平均，0.3-0.4为收入相对合理，0.4-0.5收入差距较大，0.5以上为收入悬殊。基尼系数的实际值只能介于0-1之间，越小越平均，越大越不平均，国际上把0.4作为贫富差距的警戒线

在这里，基尼系数越小，代表集合中的数据越纯，我们可以计算分裂前的值在按照某个维度对数据集进行划分。

3.信息增益率

信息增益率在信息增益的基础熵增加了惩罚项，惩罚项是特征的固有值，

写作gr(X,Y)。定义为信息增益除以特征的固有值

关注

35
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
决策树算法原理

决策树( Decision Tree) 又称为判定树，是数据挖掘技术中的一种重要的分类与回归方法，它是一种以树结构（包括二叉树和多叉树）形式来表达的预测分析模型。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。一般，一棵决策树包含一个根节点，若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点对应于一个属性测试。
复制链接

扫一扫

专栏目录

博客等级

码龄2年

36
原创

695
点赞

500
收藏

569
粉丝

关注

私信

热门文章

分类专栏

深度学习 11篇
机器学习 10篇
flask 5篇
mysql 3篇

最新评论

梯度和反向传播
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
数据分析项目实战：物流行业数据分析
小鱼云云: 博主博主，有源码吗？可以有偿
leetcode第377. 组合总和 Ⅳ
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
leetcode第377. 组合总和 Ⅳ
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
leetcode第377. 组合总和 Ⅳ
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。