python机器学习之决策树分类

最新推荐文章于 2024-05-04 03:12:00 发布

Jeffrey_Cui

最新推荐文章于 2024-05-04 03:12:00 发布

阅读量2.6k

点赞数

分类专栏：机器学习文章标签： python 机器学习决策树 ID3

本文链接：https://blog.csdn.net/cui134/article/details/28427137

版权

决策树分类与上一篇博客k近邻分类的最大的区别就在于，k近邻是没有训练过程的，而决策树是通过对训练数据进行分析，从而构造决策树，通过决策树来对测试数据进行分类，同样是属于监督学习的范畴。决策树的结果类似如下图：

图中方形方框代表叶节点，带圆边的方框代表决策节点，决策节点与叶节点的不同之处就是决策节点还需要通过判断该节点的状态来进一步分类。

那么如何通过训练数据来得到这样的决策树呢？

这里涉及要信息论中一个很重要的信息度量方式，香农熵。通过香农熵可以计算信息增益。

香农熵的计算公式如下：

p(xi)代表数据被分在i类的概率，可以通过计算数据集中i类的个数与总的数据个数之比得到，计算香农熵的python代码如下：

from math import log

def calcShannonEnt(dataSet):
    numEntries=len(dataSet)
    labelCounts={}
    for featVec in dataSet:
        currentLabel=featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0
        labelCounts[currentLabel]+=1
    shannonEnt=0.0
    for key in labelCounts:
        prob=float(labelCounts[key])/numEntries
        shannonEnt-=prob*log(prob,2)
    return shannonEnt

一般来说，数据集中，不同的类别越多，即信息量越