数据挖掘C4.5算法实现

最新推荐文章于 2023-06-19 06:54:17 发布

sinat_20695925

最新推荐文章于 2023-06-19 06:54:17 发布

阅读量1.8k

点赞数 3

分类专栏：机器学习文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/sinat_20695925/article/details/117593986

版权

本文档详细介绍了C4.5算法在数据挖掘中的实现过程，包括信息熵计算、信息增益率的选择、决策树创建及模型测试。在实验中，通过西瓜数据集2.0进行训练，探讨了算法在处理重复属性和空样本分类时的策略。同时，与sklearn库的决策树进行了比较，发现两者因选择最优属性标准不同（信息增益率 vs 基尼指数）而导致结果差异。

摘要由CSDN通过智能技术生成

1实验目的：

实现c4.5算法。要求：

1.给定一个训练数据集，得到决策树并用图形显示该决策树。

2. 用学习得到的决策树对测试集进行判决或分类，得到测试集上的分类错误率。

2实验过程：

数据集

本实验采用西瓜数据集2.0

dataSet=[['青绿','蜷缩','浊响','清晰','凹陷','硬滑','是'],
             ['乌黑','蜷缩','沉闷','清晰','凹陷','硬滑','是'],
             ['乌黑','蜷缩','浊响','清晰','凹陷','硬滑','是'],
             ['青绿','蜷缩','沉闷','清晰','凹陷','硬滑','是'],
             ['浅白','蜷缩','浊响','清晰','凹陷','硬滑','是'],
             ['青绿','稍蜷','浊响','清晰','稍凹','软粘','是'],
             ['乌黑','稍蜷','浊响','稍糊','稍凹','软粘','是'],
             ['乌黑','稍蜷','浊响','清晰','稍凹','硬滑','是'],
             ['乌黑','稍蜷','沉闷','稍糊','稍凹','硬滑','否'],
             ['青绿','硬挺','清脆','清晰','平坦','软粘','否'],
             ['浅白','硬挺','清脆','模糊','平坦','硬滑','否'],
             ['浅白','蜷缩','浊响','模糊','平坦','软粘','否'],
             ['青绿','稍蜷','浊响','稍糊','凹陷','硬滑','否'],
             ['浅白','稍蜷','沉闷','稍糊','凹陷','硬滑','否'],
             ['乌黑','稍蜷','浊响','清晰','稍凹','软粘','否'],
             ['浅白','蜷缩','浊响','模糊','平坦','硬滑','否'],
             ['青绿','蜷缩','沉闷','稍糊','稍凹','硬滑','否']]

labels=['色泽','根蒂','敲声','纹理','脐部','触感']