Python四步实现决策树ID3算法，参考机器学习实战_python设计决策树学习算法,或者运用id3算法,对某一决策信息表构建决策树源代码-CSDN博客

本文链接：https://blog.csdn.net/Laurel1115/article/details/87936942

决策树ID3算法的python实现

一、编写计算历史数据的经验熵函数
二、按照指定特征和其特征值来划分数据集
三、计算每个特征的熵，求得信息增益，返回使得信息增益最大的特征
四、递归构建决策树
- （一）定义叶子节点中的实例类别
- (二）、构造决策树
五、创建实例测试算法
六、利用以上实现的算法实现决策树分类，需要递归遍历整棵决策树

一、编写计算历史数据的经验熵函数

from math import log
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {
   }
    for elem in dataSet: #遍历数据集中每条样本的类别标签，统计每类标签的数量
        currentLabel = elem[-1]
        if currentLabel not in labelCounts.keys(): #如果当前标签不在字典的key值中，则初始化该标签对应的值为0
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1             #计数+1
    shannonEnt = 0.0
    for key in labelCounts:#开始计算历史数据的经验熵
        prob = float(labelCounts[key])/numEntries#每类标签在全部历史数据中所占概率
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt

二、按照指定特征和其特征值来划分数据集

参数axis指定是第几个特征，value是该特征什么值，这个函数会在第三步的函数和第四步里被调用，主要作用在相应步结束后介绍

def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for elem in dataSet:
        if elem[axis] == value:
            reducedFeatElem=elem[:axis]     
            reducedFeatElem.extend(elem[axis+1:])
            re