数据挖掘C4.5算法实现

本文档详细介绍了C4.5算法在数据挖掘中的实现过程,包括信息熵计算、信息增益率的选择、决策树创建及模型测试。在实验中,通过西瓜数据集2.0进行训练,探讨了算法在处理重复属性和空样本分类时的策略。同时,与sklearn库的决策树进行了比较,发现两者因选择最优属性标准不同(信息增益率 vs 基尼指数)而导致结果差异。
摘要由CSDN通过智能技术生成

1实验目的:

实现c4.5算法。要求:

1.给定一个训练数据集,得到决策树并用图形显示该决策树。

2. 用学习得到的决策树对测试集进行判决或分类,得到测试集上的分类错误率。

2实验过程:

  1. 数据集

     本实验采用西瓜数据集2.0

dataSet=[['青绿','蜷缩','浊响','清晰','凹陷','硬滑','是'],
             ['乌黑','蜷缩','沉闷','清晰','凹陷','硬滑','是'],
             ['乌黑','蜷缩','浊响','清晰','凹陷','硬滑','是'],
             ['青绿','蜷缩','沉闷','清晰','凹陷','硬滑','是'],
             ['浅白','蜷缩','浊响','清晰','凹陷','硬滑','是'],
             ['青绿','稍蜷','浊响','清晰','稍凹','软粘','是'],
             ['乌黑','稍蜷','浊响','稍糊','稍凹','软粘','是'],
             ['乌黑','稍蜷','浊响','清晰','稍凹','硬滑','是'],
             ['乌黑','稍蜷','沉闷','稍糊','稍凹','硬滑','否'],
             ['青绿','硬挺','清脆','清晰','平坦','软粘','否'],
             ['浅白','硬挺','清脆','模糊','平坦','硬滑','否'],
             ['浅白','蜷缩','浊响','模糊','平坦','软粘','否'],
             ['青绿','稍蜷','浊响','稍糊','凹陷','硬滑','否'],
             ['浅白','稍蜷','沉闷','稍糊','凹陷','硬滑','否'],
             ['乌黑','稍蜷','浊响','清晰','稍凹','软粘','否'],
             ['浅白','蜷缩','浊响','模糊','平坦','硬滑','否'],
             ['青绿','蜷缩','沉闷','稍糊','稍凹','硬滑','否']]

labels=['色泽','根蒂','敲声','纹理','脐部','触感']

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值