机器学习实战——决策树（代码）

最新推荐文章于 2020-09-23 12:01:59 发布

Hu_Pengxue

最新推荐文章于 2020-09-23 12:01:59 发布

阅读量1.1k

点赞数

分类专栏： python 机器学习

本文链接：https://blog.csdn.net/Hu_Pengxue/article/details/80902693

版权

本文介绍了在学习《机器学习实战》过程中，对书中决策树算法的实践，虽然代码有所调整，但能确保有效执行。

摘要由CSDN通过智能技术生成

最近在学习Peter Harrington的《机器学习实战》，代码与书中的略有不同，但可以顺利运行。

from math import log
import operator

# 计算熵
def calcShannonEnt(dataset):
    num = len(dataset)
    labelCounts = {}
    for featVec in dataset:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0
    for key in labelCounts:
        prob = float(labelCounts[key]/num)
        shannonEnt -= prob*log(prob, 2)
    return shannonEnt

# 创建测试数据集
def createDataset():
    dataset = [[1, 1, 'yes'],
            [1, 1, 'yes'],
            [1, 0, 'no'],
            [0, 1, 'no'],
            [0, 1, 'no']]
    # labels是特征的名称
    labels = ['no surfacing', 'flippers']
    return dataset, labels

# 测试
# mydata,labels = createDataset()
# print(mydata)
# print(calcShannonEnt(mydata))
# 修改第一个实例的分类结果为maybe
# mydata[0][-1] =