数据挖掘--决策树C4.5算法(例题)

C4.5算法与ID3算法的不同点:
(1)分支指标采用增益比例
(2)数值属性的处理
(3)处理缺少属性值的训练样本
(4)使用K次迭代交叉验证,评估模型的优劣程度;
(5)根据生成的决策树,可以产生一个if-then规则的集合。

计算的步骤:
1.对数据源进行预处理
2.计算每个属性的信息增益和信息增益率
3.根节点属性每一个可能的取值对应一个子集,对样本子集递归地执行以上Step2过 程,直到划分的每个子集中的观测数据在分类属性上取值都相同,生成决策树
4.根据构造的决策树提取分类规则,对新的数据集进行分类。

C4.5算法例题:
在这里插入图片描述
分割线---------------------------------------------------------------------------------
在这里插入图片描述
在这里插入图片描述
分割线---------------------------------------------------------------------------------
第一种因素:(性别)
在这里插入图片描述
下面的三个式子为熵:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
下面1个式子为信息增益:
在这里插入图片描述
下面1个式子为分裂信息:
在这里插入图片描述
下面1个式子为信息增益率:
在这里插入图片描述

分割线---------------------------------------------------------------------------------
第二种因素:(学生干部)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分割线---------------------------------------------------------------------------------
第三种因素:(综合成绩)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分割线---------------------------------------------------------------------------------
第四种因素:(毕业论文)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分割线---------------------------------------------------------------------------------

对比四种因素的信息增益率,选择最大的作为根节点,这里最大的是(学生干部),之后就是递归解决接下来的节点。

  • 40
    点赞
  • 259
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值