用Excel建模进行决策树分析

本文介绍了如何使用Excel进行决策树分析,从ID3算法的基本原理出发,解释了信息熵和信息增益的概念,并通过实例展示了如何计算各属性对决策的影响,以确定最佳分裂属性。
摘要由CSDN通过智能技术生成

       决策树(Decision Tree)在机器学习中也是比较常见的一种算法,最早的决策树算法是ID3,改善后得到了C4.5算法,进一步改进后形成了我们现在使用的C5.0算法,综合性能大幅提高。

       算法核心:为每一次分裂确定一个分裂属性。ID3采用的是“信息增益”为度量来选择分裂属性的。

       本文在Excel中建模进行决策树分析,属于基础的决策树学习,有兴趣的可以在SPSS Modeler和Python中进行操作。

树模型(又称决策树或者树结构模型):基本思想和方差分析中的变异分解极为相似。
目的(基本原则):将总研究样本通过某些牲(自变量取值)分成数个相对同质的子样本。每一子样本因变量的取值高度一致,相应的变异/杂质尽量落在不同子样本间。所有树模型的算法都遵循这一基本原则。
不同树模型差异:差异在于对变异/杂质的定义不同。比如P值、方差、熵、Gini指数(基尼指数)、Deviance等作为测量指标。

决策树图例

 现在我们来分析天气、温度、湿度、风这些属性对打球的影响

首先确定样本集信息熵,然后计算各个属性的信息增益进行对比分析。

熵:数据集中的不确定性、突发性或随机性的程度的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值