机器学习实战——3.1 决策树的构造

GH0602

已于 2022-04-14 14:41:37 修改

阅读量981

点赞数 2

分类专栏：机器学习实战文章标签： python 机器学习分类

于 2022-04-13 20:57:17 首次发布

本文链接：https://blog.csdn.net/GH0602/article/details/124157165

版权

本文详细介绍了机器学习中决策树的构造过程，包括信息增益的概念，如何划分数据集，以及如何递归构建决策树。在信息增益计算中，选择熵最高的特征作为最优划分依据。通过示例展示了数据集划分前后熵的变化。接着讨论了如何选择最佳数据集划分方式，并展示了递归构建决策树的步骤，最终形成决策树结构。

摘要由CSDN通过智能技术生成

1. 信息增益

在划分数据集之前之后信息发生的变化称为信息增益，获得信息增益最高的特征就是最好的选择。集合信息的度量方式称为香农熵或简称为熵。

此代码的功能式计算给定数据集的熵：

def calcshannonent(dataset):
    numentries = len(dataset)
    labelcounts = {}
    for featvec in dataset:
        currentlabel = featvec[-1]  # 创建一个数据词典，它的键值是最后一列的数值
        if currentlabel not in labelcounts.keys():labelcounts[currentlabel] = 0    # 如果当前键值不存在，则扩展字典并将当前键值加入字典
        labelcounts[currentlabel] += 1
    shannonent = 0.0
    for key in labelcounts:
        prob = float(labelcounts[key])/numentries
        shannonent -= prob*log(prob, 2)  # 以2为底求对数
    return shannonent

我们可以利用creatdataset（）函数得到简单鱼鉴定数据集：

def creatdataset():
    dataset = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataset, labels

查看数据集：

mydata, labels = creatdataset()
print("mydata:", mydata)
print("labels:", labels)
print("香农熵：", calcshannonent(mydata))

输出结果：

熵越高，则混合数据也越多，这里我们增加第三个名为maybe的分类，测

最低0.47元/天解锁文章

GH0602

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录