决策树--ID3算法

最新推荐文章于 2024-04-28 23:23:24 发布

Sun-Flower

最新推荐文章于 2024-04-28 23:23:24 发布

阅读量685

点赞数

分类专栏：机器学习文章标签：决策树ID3 机器学习

本文链接：https://blog.csdn.net/swj110119/article/details/71302510

版权

1、基本理论：熵、信息增益
http://www.cnblogs.com/wentingtu/archive/2012/03/24/2416235.html

2、ID3算法步骤：
输入：数据集dataset（所有样本的属性值），标签集labels（决策结果集）
输出：一颗判定树
（1）if dataset所有样本都属于同一分类（即只有天气晴才出去玩，其他情况都不出去，都属于天气这一分类）
返回标号为该分类的叶节点
（2）else if 属性值为空
返回标签中值相同数量最多的作为叶节点
（3）else 选择信息增益最高的属性最为根节点，接着判断改属性下是否有样本，如果没有，创建该属性下标号最普遍分类的叶子结点；如果有，则开始递归上述步骤(1)~(3)
http://blog.csdn.net/liema2000/article/details/6118384
具体实例分析：http://zc0604.iteye.com/blog/1462825

3、Python实现：
3.1计算数据集的香农熵：

#计算信息熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] +=1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob*log(prob,2)
    return shannonEnt

3.2 准备数据：
这里写图片描述

def createDataSet():
    dataSet = [[1,1,'yes'],
               [1,1,'yes'],
               [1,0,'no'],
               [0,1,'no'],
               [0,1,'no']]
    labels = ['no surfacing','flippers']
    return dataSet,labels

3.3 划分数据集

#划分数据集，按照给定的特征划分数据集，返回同一属性不同属性值的数据集
def splitDataSet(dataSet,axis,value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

3.4 选择最好的数据集划分方式：即选择信息增益最大的属性

#选择最好的数据集划分方式
def chooseBestFeatureToSplit(dat

最低0.47元/天解锁文章

Sun-Flower

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树--ID3算法

1、基本理论：熵、信息增益 http://www.cnblogs.com/wentingtu/archive/2012/03/24/2416235.html2、ID3算法步骤：输入：数据集dataset（所有样本的属性值），标签集labels（决策结果集）输出：一颗判定树（1）if dataset所有样本都属于同一分类（即只有天气晴才出去玩，其他情况都不出去，都属于天气这一分类）
复制链接

扫一扫