决策树的Python实现

最新推荐文章于 2024-08-10 00:28:48 发布

Summit_Yue

最新推荐文章于 2024-08-10 00:28:48 发布

阅读量3.6k

点赞数 1

分类专栏： Mechine Learning 文章标签：机器学习

本文链接：https://blog.csdn.net/u011197534/article/details/52749325

版权

Mechine Learning 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

决策树的Python实现

决策树理解

　　
　　最近研读《机器学习实战》这本书，一方面想深入学习一下机器学习的思想，因为之前使用过一些机器学习方法在图像或者字符识别分类方面，但是使用的大多是OpenCV或者MATLAB集成的包，对算法的内部机理不甚了解。同时想借此机会学一学Python，于是先从决策树看起了。
　　决策树是一种预测分类算法，通过对样本的训练得到。想到树这种数据结构就会想到分支、结点，同样，决策树的构建重点同样在分支与结点上。首先，根节点是全部的数据集，我们需要建立根节点下的一个分支，对原始数据集进行划分。那么，我们需要首先筛选出能将数据集进行最好划分的特征，即区分度最大的特征。选出特征之后，对数据集进行划分，产生两个子节点。接下来，我们需要对子节点进行同样方法的递归划分，直至整个决策树构建完毕。那么，我们需要考虑的问题有两个，划分时如何找到最具区分度的特征以及递归的停止条件。
　　

信息增益

　　对特征进行区分度进行量化的方法就是信息熵，熵定义为信息的期望值。如果待分类的事务可能划分在多个分类之中，则符号 $x_i$ 的信息定义为：

l (x i) = - l o g 2 p (x i)

$l(x_i) = -log_2p(x_i)$
其中

p(xi) $p(x_i)$ 是选择该分类的概率
为了计算熵，我们需要计算所有类别所有可能包含的信息期望值，计算公式如下：

\sum i = 1 n p (x i) l o g 2 p (x i)

$\sum_{i=1}^n p(x_i)log_2p(x_i)$
其中n是分类的数目，即信息熵。原始未分类数据信息熵与分类后的数据信息熵的差值成为信息增益，显然信息增益越大，表明数据由无序到有序的程度越高，也表明该特征区分度大。

递归构建决策树

　　根据信息熵得到最有区分度的特征之后，就可以根据数据的特征进行划分。即递归构建决策树。那么，递归的停止条件就是：程序遍历完所有划分数据集的特征，或者每个分支下所有的样本都属于相同的分类。这就是ID3算法，即选择信息熵下降最快的属性作为划分标准。

下面是《机器学习实战》中决策树部分的代码，用到了字典列表部分高级应用，添加了一部分注解方便以后查看：

# -*- coding: utf-8 -*-
"""
Created on Thu Oct  6 10:21:05 2016

@author: Administrator
"""
from math import log
import numpy as np

import operator

#创造测试数据集dataset与标签label
def createDataset():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    return dataSet,labels

#计算数据集的信息熵（数据集）
def calcShannonEnt(dataSet):
    numEntris = len(dataSet)
    #labelcounts字典键为类别，值为该类别样本数量
    labelcounts = {}
    for featVec in dataSet:
        #得到dataset中每个样本的最后一个元素，即类别
        currentlabel = featVec[-1]
        if currentlabel not in labelcounts.keys():
            #当前样本类别labelcounts中没有，添加
            labelcounts[currentlabel] = 0;
        #有则当前样本所属类别数量加一
        labelcounts[currentlabel] += 1
    shannonEnt = 0.0
    #计算香农熵
    for key in labelcounts:
        prob = (float)(labelcounts[key]/numEntris)
        shannonEnt -= prob*log(prob,2)
    return shannonEnt

#划分数据集（数据集，划分特征索引，特征值）
def spiltDataSet(dataSet,axis,value):
    #python中函数参数按引用传递，因此函数中构建参数的复制
    #防止传入的参数原值被修改
    retDataSet = []
    for featVec in dataSet:
        if(featVec[axis]==value):
            #去掉当前这个特征（因为划分中已用过）
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

#选择最好的划分特征（数据集）
def chooseBestFeatureToSplit(dataset):
    #特征数量
    numFeatures = len(dataset[0])-1
    #原始数据集信息熵
    bestEntropy = calcShannonEnt(dataset)
    #最优的信息增益
    bestInfoGain = 0.0
    #最优的特征索引
    bestFeature = -1
    for i in range(numFeatures):
        #取第i个特征
        featList = [example[i] for example in dataset]
        #set构建集合，将列表中重复元素合并
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            #按照所取当前特征的不同值划分数据集
            subDataSet = spiltDataSet(dataset,i,value)
            #计算当前划分的累计香农熵
            prob = len(subDataSet)/float(len(dataset))
            newEntropy += prob*calcShannonEnt(subDataSet)
        #得到当前特征划分的信息增益
        infoGain = bestEntropy-newEntropy
        #选出最大的信息增益特征
        if(infoGain>bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

#若特征用完后仍存在同一分支下有不同类别的样本
#则此时采用投票方式决定该分支隶属类别
#即该分支下哪个类别最多，该分支就属哪个类别
def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    #字典排序（字典的迭代器，按照第1个域排序也就是值而不是键，True是降序）
    sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse=True)
    #返回类别
    return sortedClassCount[0][0]

#递归构建决策树
def creatertree(dataset,labels):
    #取类别
    classList = [example[-1] for example in dataset]
    #如果classList中索引为0的类别数量和classList元素数量相等
    #即分支下都属同一类，停止递归
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    #划分类别的特征已用完，停止递归，返回投票结果
    if (len(dataset[0]) == 1):
        return majorityCnt(classList)
    #选择最具区分度特征
    bestFeat = chooseBestFeatureToSplit(dataset)
    bestFeatLabel = labels[bestFeat]
    #树用嵌套的字典表示
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataset]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        #递归构建决策树
        myTree[bestFeatLabel][value] = creatertree(spiltDataSet(dataset,bestFeat,value),subLabels)
    return myTree

#分类函数（决策树，标签，待分类样本）
def classify(inputTree,featLabels,testVec):
    firstSides = list(inputTree.keys())
    #找到输入的第一个元素
    firstStr = firstSides[0]
    ##这里表明了python3和python2版本的差别，上述两行代码在2.7中为：firstStr = inputTree.key()[0]
    secondDict = inputTree[firstStr]
    #找到在label中firstStr的下标
    featIndex = featLabels.index(firstStr)
    #for i in secondDict.keys():
        #print(i)

    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]) == dict:###判断一个变量是否为dict，直接type就好
                classLabel = classify(secondDict[key],featLabels,testVec)
            else:
                classLabel = secondDict[key]
    ##比较测试数据中的值和树上的值，最后得到节点
    return classLabel  
def retrieveTree(i):
    listOfTrees =[{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}},
                  {'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}
                  ]
    return listOfTrees[i]
myDat,labels = createDataset()
myTree = retrieveTree(0)
mylabel = classify(myTree,labels,[1,1])
print(mylabel)