IBM SPSS Modeler算法系列-----决策树C5.0算法

最新推荐文章于 2024-02-18 23:49:09 发布

VIP文章数控小J

最新推荐文章于 2024-02-18 23:49:09 发布

阅读量2.1w

点赞数 2

分类专栏：预测分析数据分析大数据应用文章标签： spss 大数据预测分析数据分析数据可视化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenjunji123456/article/details/52189312

版权

在之前的文章《IBM SPSS Modeler算法系列-----决策树CHAID算法》,我们介绍是CHAID算法，今天我们介绍另外一种用得非常广泛的决策树算法C5.0，该算法是专属于RuleQuest 研究有限公司（http://www.rulequest.com/）。

对于决策树算法来说，核心技术就是如何确定最佳分组变量和分割点，上次我们介绍的CHAID是以卡方检验为标准，而今天我们要介绍的C5.0则是以信息增益率作为标准，所以首先我们来了解下信息增益（Gains），要了解信息增益（Gains），先要明白信息熵的概念。

信息熵是信息论中的基本概念，信息论是1948年由C.E.Shannon提出并发展起来的，主要用于解决信息传递中的问题，也称统计通信理论。这些技术的概念很多书籍或者百度一下都有具体的介绍，我们这里不再赘述，我们通过一个例子来理解信息量和信息熵。

在拳击比赛中，两位对手谁能获得胜利，在对两位选择的实力没有任何了解的情况下，双方取得胜利的概率都是1/2,所以谁获得胜利这条信息的信息量,我们通过公式计算 :

SPSS Modeler

其中p是每种情况出现的概率,这里计算出来的1bit就是谁获得胜利这条信息的信息量。如果信息是最后进入四强的选手谁获得最终胜利，它的信息量是 :

SPSS Modeler

对比这个例子可以看到，不确定性越高，信息量就越大。

信息熵是信息量的数学期望，数学期望听起来有点陌生，但均值我相信大家都明白，那么在概率论和统计学中，数学期望指的就是均值，它是试验中每次可能出现的结果的概率乘以其结果的总和，它反映随机变量平均取值的大小。信息熵是平均信息量，也可以理解为不确定性。因此，信息熵的计算公式是:

SPSS Modeler

仍以前面拳击比赛为例子，如果两对对手获胜的概率都为50%，那么信息熵:

SPSS Modeler

如果两位对手A和B,根据以往的比赛历史经验判断，A胜利的概率是80%，B胜利的

最低0.47元/天解锁文章

关注

2
点赞
踩
40

收藏

觉得还不错? 一键收藏
1
评论
IBM SPSS Modeler算法系列-----决策树C5.0算法

对于决策树算法来说，核心技术就是如何确定最佳分组变量和分割点，上次我们介绍的CHAID是以卡方检验为标准，而今天我们要介绍的C5.0则是以信息增益率作为标准，所以首先我们来了解下信息增益（Gains），要了解信息增益（Gains），先要明白信息熵的概念。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。