《机器学习实战》——决策树

最新推荐文章于 2022-11-20 17:58:02 发布

jyt1129

最新推荐文章于 2022-11-20 17:58:02 发布

阅读量426

点赞数

分类专栏：机器学习 Python

本文链接：https://blog.csdn.net/jyt1129/article/details/62890777

版权

机器学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

Python

4 篇文章 0 订阅

订阅专栏

在这篇博文中，总结了决策树的基本用法和用python写的测试demo

1. 决策树的定义
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（Node）和有向边（directed edge）组成。结点有两种类型：内部结点（internal node）和叶节点（leaf node）。内部结点表示一个特征或属性，叶结点表示一个类。

2. 决策树测试过程

用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值，如此递归地对实例进行测试并分配，直至达到叶结点，最终将实例分到叶结点的类中。

决策树模型的简单表示：

3.决策树的构造

在构造决策树时，我们首先需要选择哪个特征作为分类特征，为了找到决定性特征，我们需要评估每一个特征，具体评估方法将在下一节中介绍。

在选择完分类特征后，用该特征对数据进行划分为几个数据子集，这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型，则已经正确地划分数据分类，无需再进一步对数据集进行分割了。如果数据子集内的数据不属于同一类型，则需要重复划分数据子集，直到数据属于同一类型。

上述决策树的构造过程伪代码函数createBranch()如下：

检测数据集中的每个子项是否属于同一分类：
If so return 类标签
Else
     寻找划分数据集的最好特征
     划分数据集
     创建分支节点
           for 每个划分的子集
                调用函数createBranch并增加返回结果到分支节点中
     return 分支节点

4.划分数据集的特征选择

划分数据的最大原则是：将无序的数据变得更加有序。

常用的特征选择方法有：ID3、C4.5、CART算法，本文将介绍ID3算法进行特征选择。

信息增益

在划分数据集前后数据信息的变化称为信息增益。

那么如何表示信息，又如何表示信息增益呢？

信息的定义：

l(xi)=-log2(p(xi))

（其中p(xi)是选择该分类的概率）

由图可知，数据的信息随着某类别xi的概率增加而减小，当概率为1时，信息量为0。

熵的定义：

在信息论与概率统计中，熵表示随机变量不确定性的度量。我们用类别所有可能值包含的信息的数学期望来计算熵：

H(p(xi)=-∑p(xi)log2(p(xi))

条件熵H(Y|X)：

表示随机变量X的条件下随机变量Y的不确定性，定义为X给定条件下Y的条件概率分布的熵对X的数学期望：

H(Y|X)=∑piH(Y|X=xi) (其中：pi=P(X=xi)）

计算熵的Python程序：

from math import log
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) #log base 2
    return shannonEnt

信息增益的定义：

信息增益表示已知特征X的信息而使得类Y的信息的不确定性（也就是熵）减小的程度。

用公式表达就是：

g(D,A)=H(D)-H(D|A)

(g(D,A)：特征A对训练数据集D的信息增益，H(D)：数据集D的经验熵，H(D|A):特征A条件下D的经验条件熵）

通过计算信息增益，找到使信息增益最大的特征，先给上Python程序：

def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet
    
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        uniqueVals = set(featList)       #get a set of unique values
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)     
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        if (infoGain > bestInfoGain):       #compare this to the best gain so far
            bestInfoGain = infoGain         #if better than current best, set to best
            bestFeature = i
    return bestFeature                      #returns an integer

例子：

样本数据：

（5个样本，具有2个特征：'no surfacing', 'flippers'，每个特征都只取1或0;样本分类结果有2种:‘yes'、'no'）

>>> dataSet

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

>>> labels

['no surfacing', 'flippers']

(1)计算整个数据集的原始熵

>>> baseEntropy =trees. calcShannonEnt(dataSet)

>>> baseEntropy

0.9709505944546686

(2)计算第一个特征的信息增益

第一个特征中所有类别：

uniqueVals = set([0, 1])

第一个特征取0时划分的数据集；并求出概率和条件熵：

>>> subDataSet=[[1, 'no'], [1, 'no']]

>>> prob = len(subDataSet)/float(len(dataSet)) = 0.4

条件熵：newEntropy += prob * calcShannonEnt(subDataSet) = 0

第一个特征取1时划分的数据集；并求出概率和条件熵：

>>> subDataSet=[[1, 'yes'], [1, 'yes'], [0, 'no']]

>>> prob = len(subDataSet)/float(len(dataSet)) = 0.6

条件熵：newEntropy += prob * calcShannonEnt(subDataSet) = 0.5509775004326937

第一个特征的信息增益

infoGain = baseEntropy - newEntropy = 0.4199730940219749

(3)相同的算法计算出其他特征的信息增益

(4)找到使信息增益最大的特征，即为选择的特征。

5.递归构建决策树

我们根据上一节的方法选择特征后，就可以把数据集划分到树分支的下一个节点中了，在下个节点中，我们又用相同的算法进行划分，直到程序遍历完所有划分数据集的属性，或者，每个分支下的所有实例属于相同的类。

创建树的Python代码：

def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList): 
        return classList[0]#stop splitting when all of the classes are equal 输出相同的类
    if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet 投票表决输出频率最高的类
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]       #copy all of labels, so trees don't mess up existing labels
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

6.使用决策树进行分类

使用决策树和决策树上的标签向量，程序比较测试数据与决策树上的数值，递归执行该过程直到进入叶子节点，最后把测试数据定义为叶子节点所属的类。

def classify(inputTree,featLabels,testVec):
    firstStr = inputTree.keys()[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    key = testVec[featIndex]
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict): 
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else: classLabel = valueOfFeat
    return classLabel

7.实例

决策树的直观表示：

8.其他

过度细分的决策树可能会出现过度匹配数据的过拟合问题，我们可以通过裁剪决策树，合并相邻叶节点等方式解决

还有C4.5和CART等其他决策树构造算法，将在以后博文中总结。

jyt1129

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》——决策树

在这篇博文中，总结了决策树的基本用法和用python写的测试demo1. 决策树的定义分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（Node）和有向边（directed edge）组成。结点有两种类型：内部结点（internal node）和叶节点（leaf node）。内部结点表示一个特征或属性，叶结点表示一个类。2. 决策树测试过程用决策树分类，从根结点开始，
复制链接

扫一扫

专栏目录