决策树代码实现

最新推荐文章于 2024-04-15 17:12:52 发布

VIP文章前进的菜鸟

最新推荐文章于 2024-04-15 17:12:52 发布

阅读量2.9k

点赞数 1

分类专栏：数据挖掘文章标签：分类决策树信息增益熵

本文链接：https://blog.csdn.net/haoni123321/article/details/38682747

版权

代码说明：

函数：createDataSet():初始化

函数：calcShannonEnt(dataSet)：求取熵

函数：splitDataSet(dataSet, axis, value)：依据axis，与value进行划分

函数：chooseBestFeatureToSplit(dataSet)：根据信息增益，得出适合划分的特征；

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    #change to discrete values
    return dataSet, labels

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] +&#