关闭

【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集

17070人阅读 评论(5) 收藏 举报
分类:

(转载请注明出处:http://blog.csdn.net/buptgshengod)

1.背景

          决策书算法是一种逼近离散数值的分类算法,思路比较简单,而且准确率较高。国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Data Mining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一。C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。

          算法的主要思想就是将数据集按照特征对目标指数的影响由高到低排列。行成一个二叉树序列,进行分类,如下图所示。

                                              

         现在的问题关键就是,当我们有很多特征值时,哪些特征值作为父类写在二叉树的上面的节点,哪下写在下面。我们可以直观的看出上面的特征值节点应该是对目标指数影响较大的一些特征值。那么如何来比较哪些特征值对目标指数影响较大呢。这里引出一个概念,就是信息熵。

        信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率。说白了就是信息熵的值越大就表明这个信息集越混乱。

        信息熵的计算公式,H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} = -\sum_{i=1}^n {p(x_i) \log_b p(x_i)}(建议去wiki学习一下)

        这里我们通过计算目标指数的熵和特征值得熵的差,也就是熵的增益来确定哪些特征值对于目标指数的影响最大。


2.数据集


                    

3.代码

 

     (1)第一部分-计算熵

                       函数主要是找出有几种目标指数,根据他们出现的频率计算其信息熵。  
def calcShannonEnt(dataSet):
    numEntries=len(dataSet)
    
    labelCounts={}

    for featVec in dataSet:
        currentLabel=featVec[-1]
       
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0        
        labelCounts[currentLabel]+=1
    shannonEnt=0.0
    
    for key in labelCounts:
         
         prob =float(labelCounts[key])/numEntries        
         shannonEnt-=prob*math.log(prob,2)

    return shannonEnt      
   

     (2)第二部分-分割数据

            因为要每个特征值都计算相应的信息熵,所以要对数据集分割,将所计算的特征值单独拿出来。
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting            
            reducedFeatVec.extend(featVec[axis+1:])      
            retDataSet.append(reducedFeatVec)          
    return retDataSet

   (3)第三部分-找出信息熵增益最大的特征值

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
       
        uniqueVals = set(featList)       #get a set of unique values
        
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        
        if (infoGain > bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature                      #returns an integer


4.代码下载

      
    结果是输出0,也就是是否有喉结对性别影响最大。
2
1
查看评论

python 计算信息熵和信息增益

1. 计算信息熵def calc_ent(x): """ calculate shanno ent of x """x_value_list = set([x[i] for i in range(x.shape[0])]) ent ...
  • autoliuweijie
  • autoliuweijie
  • 2016-08-18 19:43
  • 7981

<PY>计算信息熵

#python3 calculate Shannon Entropy from math import log2 def calcShannonEnt(dataSet): length,dataDict=float(len(dataSet)),{} for data in data...
  • awsxsa
  • awsxsa
  • 2015-08-29 18:35
  • 1998

信息熵的计算

最近在看决策树的模型,其中涉及到信息熵的计算,这里东西是由信号处理中来的,理论部分我就不再重复前人的东西了,下面给出两个简单的公式: 当然学习过信号与系统的童鞋一定觉得这不是香农提出的东西吗?O(∩_∩)O~没错,就是这个东西,只不过我们用在了机器学习上,好了下面就看代码吧,这...
  • xueyunf
  • xueyunf
  • 2013-07-01 14:28
  • 3259

决策树中熵的理解

熵,信息增益
  • SherryQiao
  • SherryQiao
  • 2017-01-13 17:43
  • 2073

信息熵计算(自己编写的python代码,垃圾,高手绕道)

# -*- coding:utf-8 -*- ''' Created on 2017年9月15日 @author: snow ''' import csv; import math; fileName = "AllElectronics....
  • guo20082200
  • guo20082200
  • 2017-09-16 10:30
  • 334

【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集

1.背景           决策书算法是一种逼近离散数值的分类算法,思路比较简单,而且准确率较高。国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Data Mining...
  • u014507097
  • u014507097
  • 2014-04-24 10:38
  • 1444

机器学习基础(三)——信息、信息熵与信息增益

信息:information,信息熵:information entropy,信息增益:information gain(IG) 划分数据集的大原则是:将无序的数据变得更加有序。组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学。在划分数据集之前之后信息发生的变化称为信...
  • lanchunhui
  • lanchunhui
  • 2016-03-24 08:29
  • 1922

信息熵、条件熵、信息增益

信息增益描述了一个特征带来的信息量的多少,往往用于特征选择信息增益 = 信息熵 - 条件熵一个特征往往会使一个随机变量Y的信息量减少,减少的部分就是信息增益一个例子如图所示,目标值是:playtennis,也就是是否打球 有四个特征:天气、温度、湿度、风信息熵信息熵的公式: H(X)=−∑i=1...
  • xtingjie
  • xtingjie
  • 2017-05-07 12:32
  • 1038

各种信息熵(Information entropy)的计算方法

一、Jensen不等式 若f为区间I上的凹函数,则Jensen不等式成立: 这里若函数f为凹函数,则有: 凹函数(上凸)如下图所示: 归纳证明: 二、信息论 1.熵(信息不确定性度量) 2.联合熵 3.条件熵 条件熵的另一种表达方式 4.互信息(...
  • zhangyongzhen1991
  • zhangyongzhen1991
  • 2017-03-01 10:25
  • 616

用Python开始机器学习(2:决策树分类算法)

从这一章开始进入正式的算法学习。首先我们学习
  • lsldd
  • lsldd
  • 2014-11-18 01:05
  • 60457
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    机器学习微信交流群
    为了方便大家学习与交流,凡人云近日已开通机器学习社群! 分享“凡人机器学习”公众号名片到40人以上的大群并截图给小助手,小助手就会拉你入群 在这里你可以得到: 1.各种学术讨论 2.最新的资料分享 3.不定期的征文以及联谊活动! 小助手微信号:meiwznn
    作者新书《机器学习实践应用》

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    个人资料
    • 访问:844008次
    • 积分:11271
    • 等级:
    • 排名:第1679名
    • 原创:236篇
    • 转载:40篇
    • 译文:0篇
    • 评论:460条
    博客专栏
    统计