机器学习python实战——第三章决策树

最新推荐文章于 2024-09-11 11:01:47 发布

挂电的小瓜虫

最新推荐文章于 2024-09-11 11:01:47 发布

阅读量266

点赞数 1

分类专栏：机器学习python实战文章标签：机器学习python实战决策树

本文链接：https://blog.csdn.net/jia_shun_L/article/details/97945062

版权

本文介绍了使用Python进行机器学习实战时，如何实现决策树算法。主要内容包括：1）创建决策树，通过主函数creattree，计算熵、划分数据集、选择最优特征和多数决策；2）利用决策树进行分类，根据输入数据和已构建的树进行类别预测；3）使用pickle模块存储和加载决策树模型。

摘要由CSDN通过智能技术生成

决策树

【1】创造树

主函数：creattree

输入：待学习的数据包括标签以及数据（x and y）

输出：决策树

思路：

首先判断子树的所有实例类别是否完全相同，若是返回类别即可，

其次判断是都是否已无特征可作为分类依据（所以要更新标签），若是返回大多数实例（majority）的类别即可，

选择令信息增量最大的特征，choose包含calcent以及split，遍历每一个特征计算熵。

ps：与基尼指数为依据有区别，信息增量只需要选择特征（多分支）而基尼指数还需要选择最佳特征值进行划分（二叉树）

按照最优的特征对逐个特征值划分（split）数据分支，根据数据分支作为迭代函数（creattree）的输入对象，直至满足条件（前两个if），迭代停止。

代码：

def createtree(dataset,label):
    #类别完全相同则停止继续划分
    classlist=[example[-1] for example in dataset]
    if classlist.count(classlist[0])==len(classlist):
        return classlist[0]#提前结束函数
    #遍历完所有特征时返回出现次数最多的类别
    if len(label)==0: