机器学习之决策树

最新推荐文章于 2022-11-14 16:55:13 发布

咸鱼不贤

最新推荐文章于 2022-11-14 16:55:13 发布

阅读量404

点赞数

文章标签：决策树机器学习人工智能

本文链接：https://blog.csdn.net/qq_54685803/article/details/121005410

版权

决策树

决策树是一种基本的分类与回归方法。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型。预测时，对新的数据，利用决策树模型进行分类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。决策树是一种十分常用的分类回归方法。简单来说决策树就是一棵树，其中跟节点和内部节点是输入特征的判定条件，叶子结点就是最终结果。

信息增益生成决策树（ID3算法）

实验原理

使用属性a对样本集进行划分所获得的“信息增益”的计算方法是，用样本集的总信息熵减去属性a的每个分支的信息熵与权重（该分支的样本数除以总样本数）的乘积，通常，信息增益越大，意味着用属性a进行划分所获得的“纯度提升”越大。因此，优先选择信息增益最大的属性来划分。

实现代码

##计算信息增益
def calcInformationGain(dataSet,baseEntropy,i):
    featList = [example[i] for example in dataSet] # 第i维特征列表
    uniqueVals = set(featList) # 换成集合 - 集合中的每个元素不重复
    newEntropy = calcConditionalEntropy(dataSet,i,featList,uniqueVals)#计算条件熵，
    infoGain = baseEntropy - newEntropy # 信息增益 = 信息熵 - 条件熵
    return infoGain

## 算法框架
def chooseBestFeatureToSplitByID3(dataSet):
    numFeatures = len(dataSet[0]) -1 # 最后一列是分类
    baseEntropy = calcShannonEnt(dataSet) #返回整个数据集的信息熵
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures): # 遍历所有维度特征
        infoGain = calcInformationGain(dataSet,baseEntropy,i) #返回具体特征的信息增益
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature # 返回最佳特征对应的维度

运行结果

ID3算法的核心思想是在决策树的每一个非叶子结点划分之前，先计算每一个属性所带来的信息增益，选择最大信息增益的属性来划分，因为信息增益越大，区分样本的能力就越强，越具有代表性，很显然这是一种自顶向下的贪心策略。

信息增益率生成决策树（C4.5算法）

算法原理

ID3算法中的信息增益准则对取值数目较多的属性有所偏好，为了减少偏好可能带来的不利影响，C4.5决策树算法中使用增益率（gain ratio）来选择最优划分属性。

IV(a)称为属性a的固有值，属性a的可能取值数目越多，则IV(a)的值通常会越大。因此，增益率准则对可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

实现代码

def calcInformationGainRate(dataSet,baseEntropy,i):
        """
        计算信息增益比
        :param dataSet: 数据集
        :param baseEntropy: 数据集中Y的信息熵
        :param i: 特征维度i
        :return: 特征i对数据集的信息增益g(dataSet|X_i)
        """
        numEntries = len(dataSet)
        labelCounts = {}
        for featVec in dataSet:
                currentLabel = featVec[i]
                if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] =0
                labelCounts[currentLabel] +=1
        shannonEnt = 0.0
        for key in labelCounts:
                prob = float(labelCounts[key]) / numEntries
                shannonEnt -= prob * log(prob,2)

        return calcInformationGain(dataSet,baseEntropy,i) / shannonEnt

def chooseBestFeatureToSplitByC45(dataSet):
        """
        选择最好的数据集划分方式
        :param dataSet:
        :return:
        """
        numFeatures = len(dataSet[0]) -1 # 最后一列是分类
        baseEntropy = calcShannonEnt(dataSet)
        bestInfoGainRate =0.0
        bestFeature = -1
        for i in range(numFeatures):
                infoGainRate = calcInformationGainRate(dataSet,baseEntropy,i)
                if (infoGainRate > bestInfoGainRate):
                        bestInfoGainRate = infoGainRate
                        bestFeature = i
        return bestFeature

# 测试决策树的构建
dataSet,labels = createDataSet()
myTree = createTree(dataSet,labels,chooseBestFeatureToSplitByC45)

运行结果

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2)在树构造过程中进行剪枝；

3)能够完成对连续属性的离散化处理；

4)能够对不完整数据进行处理。

基尼指数生成决策树（CART算法）

实验原理

定义（基尼指数）
分类问题中，假设有K个类，样本点属于第k类的概率为pkpk，则概率分布的基尼指数定义为

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示A =a 分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也越大，这一点与熵相似。

实现代码

def calcProbabilityEnt(dataSet):
    numEntries = len(dataSet)
    feaCounts = 0
    fea1 = dataSet[0][len(dataSet[0])-1]
    for feaVec in dataSet:
        if feaVec[-1] == fea1:
            feaCounts += 1
    probabilityEnt = float(feaCounts) / numEntries
    return probabilityEnt
    
#选择最好的数据集划分方式
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1  #特征数量，numfeature为特征的维度，因为最后一列为标签，所以需要减去1
    if numFeatures == 1: 
        return 0
    bestGini = 1     #最佳基尼指数
    bestFeature = -1     #最优的划分特征初始化为-1
    for i in range(numFeatures):   #遍历所有的特征
        featList = [example[i] for example in dataSet]
        feaGini = 0    #定义特征的值的基尼系数
        uniqueVals = set(featList) 
        for value in uniqueVals: #遍历该特征维度下对应的所有特征值
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            probabilityEnt = calcProbabilityEnt(subDataSet)
            feaGini += prob * (2 * probabilityEnt * (1 - probabilityEnt))
        if (feaGini < bestGini):
            bestGini = feaGini
            bestFeature = i   #记录基尼指数最小的索引值
    return bestFeature

运行结果

CART算法的核心是分类和回归。分类算法在于生成决策树，CART为递归算法，总是将当前样本分为两个子样本集，使得生成的每个非叶子节点都有两个分支，最终得到二叉树形式的决策树。

咸鱼不贤

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树

信息增益生成决策树（ID3算法）实验原理使用属性a对样本集进行划分所获得的“信息增益”的计算方法是，用样本集的总信息熵减去属性a的每个分支的信息熵与权重（该分支的样本数除以总样本数）的乘积，通常，信息增益越大，意味着用属性a进行划分所获得的“纯度提升”越大。因此，优先选择信息增益最大的属性来划分。实现代码##计算信息增益def calcInformationGain(dataSet,baseEntropy,i): featList = [example[i] f...
复制链接

扫一扫