【机器学习实验三】决策树

最新推荐文章于 2023-11-06 20:01:04 发布

ぃ小男孩つ

最新推荐文章于 2023-11-06 20:01:04 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习文章标签：决策树算法机器学习

本文链接：https://blog.csdn.net/qq_54699828/article/details/120999731

版权

机器学习专栏收录该内容

6 篇文章 3 订阅

订阅专栏

一、决策树的概念

顾名思义，决策树就是一棵树，一颗决策树包含一个根节点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶子结点的路径对应了一个判定测试序列。举个例子，如下图所示：

二、熵和信息增益

决策树学习的关键在于如何选择最优的划分属性，所谓的最优划分属性，对于二元分类而言，就是尽量使划分的样本属于同一类别，即“纯度”最高的属性。那么如何来度量特征（features）的纯度，这时候就要用到“信息熵（information entropy）”。先来看看信息熵的定义：假如当前样本集D中第k类样本所占的比例为，为类别的总数（对于二元分类来说，）。则样本集的信息熵为：

Ent(D)的值越小，则D的纯度越高。（这个公式也决定了信息增益的一个缺点：即信息增益对可取值数目多的特征有偏好（即该属性能取得值越多，信息增益，越偏向这个），因为特征可取的值越多，会导致“纯度”越大，即ent（D）会很小，如果一个特征的离散个数与样本数相等，那么Ent（D）值会为0）。再来看一个概念信息增益（information gain），假定离散属性有个可能的取值，如果使用特征来对数据集D进行划分，则会产生V个分支结点，其中第v（小v）个结点包含了数据集D中所有在特征上取值为的样本总数，记为。因此可以根据上面信息熵的公式计算出信息熵，再考虑到不同的分支结点所包含的样本数量不同，给分支节点赋予权重，即样本数越多的分支节点的影响越大，因此，能够计算出特征对样本集D进行划分所获得的“信息增益”:

一般而言，信息增益越大，则表示使用特征对数据集划分所获得的“纯度提升”越大。所以信息增益可以用于决策树划分属性的选择，其实就是选择信息增益最大的属性，ID3算法就是采用的信息增益来划分属性。

三、ID3算法

1、算法简介

ID3算法（Iterative Dichotomiser 3）是一种基于信息熵的决策树分类学习算法，以信息增益和信息熵作为对象分类的衡量标准，该算法的核心是在决策树各级节点上选择属性时，用信息增益作为属性的选择标准，使得在每一个非节点进行测试时，能获得关于被测试记录最大的类别信息。

2、数据收集

本次实验所采用的数据来自UCI数据集，数据集题目为群众对汽车各种因素的接受情况。如图：

其中，前五列为标签分别为：buying,maint,doors,persons,lug_boot,safty,最后一个为决策结果，unacc表示无法接受，acc表示接受，good表示很好，vgood表示非常好

数据加载

def loadData(dataseturl):
    dataset = []
    with open(dataseturl) as f:
        dataall = f.readlines()
    for data in dataall:
        dataline = data.strip().split(',')
        dataset.append(dataline)
    #六个属性
    labels=['buying','maint','doors','persons','lug_boot','safty']
    return dataset,labels

计算给定数据的香农熵

def calShannonEnt(dataset):
    numEntries = len(dataset)
    labelCounts={}
    for data in dataset:
        #提取标签信息
        classlabel = data[-1]
        if(classlabel not in labelCounts.keys()):
            labelCounts[classlabel]=0
        labelCounts[classlabel]+=1
    shannonEnt=0.0
    for key in labelCounts:
        p = float(labelCounts[key])/numEntries
        shannonEnt-= p*np.log2(p)
    return shannonEnt

根据某一特征划分数据集

def splitDataset(dataset,axis,value):#axis 属性的位置 value 返回数据属性值为value
    retDataSet = []
    for featVec in dataset:
        if featVec[axis]==value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

选择最佳属性划分数据集

def chooseBestFeatureToSplit(dataset):
    numFeatures = len(dataset[0])-1 #计算特征数
    baseEntropy = calShannonEnt(dataset)#计算信息熵
    bestFeature = -1
    bestInfoGain = 0
    for i in range(numFeatures): #不断循环属性
        featList = [example[i] for example in dataset] #获取数据集的第i个特征
        uniqueVals = set(featList) #属性i的属性值有哪些
        newEntropy = 0.0
        for value in uniqueVals:#
            subDataSet = splitDataset(dataset,i,value) #按照属性i和属性i的值value进行数据划分
            prob = len(subDataSet)/float(len(dataset))
            newEntropy +=prob*calShannonEnt(subDataSet) #计算划分过数据集的信息熵
        infoGain = baseEntropy-newEntropy #计算信息增益，也就是信息熵的变换量
        print("第%d个特征的信息增益为：%.3f" % (i, infoGain))
        if(infoGain>bestInfoGain):
            bestInfoGain = infoGain
            bestFeature=i
    return bestFeature

若所有属性使用完毕后，类标签还无法统一，使用投票的方式进行统一

def majorityCnt(classList):
    classCount={ }
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote]=0
        else:
            classCount[vote]+=1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

创建并递归遍历该棵树

def createTree(dataset,labels):#数据集和标签列表
    classList =[example[-1] for example in dataset]#数据所属类得值
    if classList.count(classList[0])==len(classList):#条件1：classList只剩下一种值
        return classList[0]
    if len(dataset[0])==1:#条件2：数据dataset中属性已使用完毕，但没有分配完毕
        return majorityCnt(classList)#取数量多的作为分类
    bestFeat = chooseBestFeatureToSplit(dataset)#选择最好的分类点，即香农熵值最小的
    labels2 = labels.copy()#复制一分labels值，防止原数据被修改。
    bestFeatLabel = labels2[bestFeat]
    myTree = {bestFeatLabel:{}}#选取获取的最好的属性作为
    del(labels2[bestFeat])#这里写博客的时候，需要说一下关于list值得变化
    featValues = [example[bestFeat] for example in dataset]#获取该属性下的几类值
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels2[:]#剩余属性列表
        myTree[bestFeatLabel][value] = createTree(splitDataset(dataset,bestFeat,value),subLabels)
    return myTree
# 进行分类---通过递归方式对这颗树进行遍历
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())[0]
    secondDic = inputTree[firstStr]  # 获取最外层字典里的值
    featIndex = featLabels.index(firstStr)  # 获取最外层属性值在属性列表中的位置
    try:
        for key in secondDic.keys():
            if testVec[featIndex] == key:
                if isinstance(secondDic[key], dict):
                    classLabel = classify(secondDic[key], featLabels, testVec)
                else:
                    classLabel = secondDic[key]
        return classLabel
    except:
        secondDic[key]

存储树并且加载

#存储树（以二进制序列化进行存储）
def storeTree(inputTree,filename):
    fw = open(filename,'wb')
    pickle.dump(inputTree,fw)
    fw.close()
#加载存储的树  以二进制返回加载的序列化值
def grabTree(filename):
    fr = open(filename,'rb')
    return pickle.load(fr)

添加主函数运行代码

if __name__ == '__main__':
    dataSet, labels = loadData('cardata.txt')
    print("数据集信息熵："+str(calShannonEnt(dataSet)))
    print("最优索引值："+str(chooseBestFeatureToSplit(dataSet)))
    mytree = createTree(dataSet,labels)
    filename = 'testdata.txt'
    storeTree(mytree,filename)
    tree = grabTree(filename)
    print("加载出来的tree:",tree)
    print("输出mytree的key:",list(mytree.keys())[0])
    treePlotter.createPlot(mytree)

运行结果

使用测试集数据测试训练模型

if __name__ == '__main__':
    dataSet, labels = loadData('carData.txt')
    # print("数据集信息熵："+str(calShannonEnt(dataSet)))
    # print("最优划分属性索引值："+str(chooseBestFeatureToSplit(dataSet)))
    mytree = createTree(dataSet, labels)
    testDataset = loadtestData("testData.txt")
    count=0
    for dataset in testDataset:
        result = classify(mytree,labels,dataset[:6])
        print("测试结果为：{}，标准结果为：{}".format(result,dataset[6]))
        if(result==dataset[6]):
            count+=1
    print("正确率：%f"%(count/84))

总结：

ID3优点：理论清晰，方法简单，学习能力较强

缺点：(1) 信息增益的计算比较依赖于特征数目比较多的特征
(2) ID3为非递增算法
(3) ID3为单变量决策树
(4) 抗糙性差