决策树树建立《机器学习实战》读书笔记(数据分析学习DAY4)

今天学习了决策树的最后一部分。
基本树的建立用到了递归的思想,这个名词真的有些模糊了。本科期间数据结构的课是半蹭的,基本知识也忘了好多。后面金融数据的分析也用不到太多数据结构的思想。
虽然理解上没什么问题,但靠自己估计还是写不出来的。

代码如下

def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)
    return sortedClassCount[0][0] #这个函数对各类数出现的频数进行统计,并排序返回最大值标签,与KNN中的排序函数相同


def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet] #取数据集中所有的标签
    if classList.count(classList[0]) == len(classList):
        return classList[0] #如果所有数据都是一个种类,则无需选择,直接返回标签,即叶节点的情况
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)#遍历所有特征后,该数据出现最多的类
    bestFeat = chooseBestFeatureToSplit(dataSet) #首先选取最优的分类特征值
    bestFeatLabel = labels[bestFeat] #得到该特征值对应的标签
    myTree = {bestFeatLabel:{}}#树的数据结构为字典,分支结点所用的key为所选择的特征值 
    del(labels[bestFeat])#将使用过的特征值删去
    featValues = [example[bestFeat] for example in dataSet] #提取出最优特征值的所有出现值
    unqiueVals = set(featValues)#删去重复值
    for value in uniqueVals:
        subLabels = labels[:]#取到删去上一步最优特征值后的特征值标签
        myTree[bestFeatLabe1][value] = createTree(splitDataSet(dataSet,BestFeat,value),subLabels)#对每一个分支节点下诞生的分类生成新的子树
    return myTree

本来这部分的学习昨天就该完成的,无奈昨天TES被暴打,兴致全无
明天会开始新模型的学习。

复习一下决策树的基本思路:
1.在节点选择最优的分类特征值
2.在决定最优分类特征值时,用信息熵来判别特征值的优劣
3.由该特征值做数据划分。
4.在划分完后的各子数据集中,再次寻找最优的特征值,进行分类。
5。直到使用完所有特征值,或者所剩数据种类相同。

使用数据集训练过程便是构建决策树的过程。
用新数据做预测时,走一遍决策树即可完成对该数据的分类预测。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值