ML学习笔记-决策树

最新推荐文章于 2022-04-25 12:55:13 发布

不挑食的程序猿

最新推荐文章于 2022-04-25 12:55:13 发布

阅读量714

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/sunyx1130/article/details/51302533

版权

ML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一般流程

1.收集数据：	可以使用任何方法。
2.准备数据：	树构造算法只适用于标称型数据，因此数值型数据必须离散化。
3.分析数据：	可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。
4.训练算法	构造树的数据结构
5.测试算法	使用经验树计算错误率
6.使用算法	此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

划分数据集的大原则是：将无序的数据变得更加有序。

代码实现

from math import log

def calShannoEnt(dataSet):
    numEntries=len(dataSet)
    labelCounts={}
    for featVec in dataSet:
        currentLabel=featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0
            labelCounts[currentLabel]+=1
    shannoEnt=0.0
    for key in labelCounts:
        prob=float(labelCounts[key])/numEntries
        shannoEnt-=prob* log(prob,2)
    return shannoEnt

def createDataSet():
    dataSet=[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]
    labels=['no surfacing','flippers']
    return dataSet,labels

import trees

dataSet,labels=trees.createDataSet()
print trees.calShannoEnt(dataSet)
dataSet[0][-1]='maybe'
print trees.calShannoEnt(dataSet)

不挑食的程序猿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ML学习笔记-决策树

一般流程1.收集数据：可以使用任何方法。2.准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。3.分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。4.训练算法构造树的数据结构5.测试算法使用经验树计算错误率6.使用算法此步骤可以适用于任何监督学习算法，而
复制链接

扫一扫

专栏目录