决策树树建立《机器学习实战》读书笔记（数据分析学习DAY4）

最新推荐文章于 2024-10-11 21:17:25 发布

一根吸管

最新推荐文章于 2024-10-11 21:17:25 发布

阅读量105

点赞数

分类专栏：机器学习文章标签：决策树机器学习

本文链接：https://blog.csdn.net/weixin_42378611/article/details/109285043

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

今天学习了决策树的最后一部分。
基本树的建立用到了递归的思想，这个名词真的有些模糊了。本科期间数据结构的课是半蹭的，基本知识也忘了好多。后面金融数据的分析也用不到太多数据结构的思想。
虽然理解上没什么问题，但靠自己估计还是写不出来的。

代码如下

def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)
    return sortedClassCount[0][0] #这个函数对各类数出现的频数进行统计，并排序返回最大值标签，与KNN中的排序函数相同


def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet] #取数据集中所有的标签
    if classList.count(classList[0]) == len(classList):
        return classList[0] #如果所有数据都是一个种类，则无需选择，直接返回标签，即叶节点的情况
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)#遍历所有特征后，该数据出现最多的类
    bestFeat = chooseBestFeatureToSplit(dataSet) #首先选取最优的分类特征值
    bestFeatLabel = labels[bestFeat] #得到该特征值对应的标签
    myTree = {bestFeatLabel:{}}#树的数据结构为字典，分支结点所用的key为所选择的特征值 
    del(labels[bestFeat])#将使用过的特征值删去
    featValues = [example[bestFeat] for example in dataSet] #提取出最优特征值的所有出现值
    unqiueVals = set(featValues)#删去重复值
    for value in uniqueVals:
        subLabels = labels[:]#取到删去上一步最优特征值后的特征值标签
        myTree[bestFeatLabe1][value] = createTree(splitDataSet(dataSet,BestFeat,value),subLabels)#对每一个分支节点下诞生的分类生成新的子树
    return myTree