决策树的构建

最新推荐文章于 2024-07-25 23:00:07 发布

isi_1

最新推荐文章于 2024-07-25 23:00:07 发布

阅读量772

点赞数 26

文章标签：决策树算法机器学习

本文链接：https://blog.csdn.net/isi_1/article/details/137838523

版权

一.决策树概述

决策树是一种树形结构，其中每个内部节点（Internal Node）表示一个特征（Feature），每个分支（Branch）表示一个特征取值的判断条件，而每个叶子节点（Leaf Node）表示一个类别（Classification）或者一个数值（Regression）。通过对特征的逐层划分，决策树可以对数据进行分类或者预测。

二.决策树构建流程

1.决策树是一个由根到叶的递归过程，在每一个中间结点寻找划分属性，递归重要的是设置停止条件：

（1）当前结点包含的样本属于同一类别，无需划分；

（2）当前属性集为空，或是所有样本在所有属性上取值相同无法划分，简单理解就是当分到这一节点时，所有的属性特征都用完了，没有特征可用了，就根据label数量多的给这一节点打标签使其变成叶节点（其实是在用样本出现的后验概率做先验概率）；

（3）当前结点包含的样本集合为空，不能划分。这种情况出现是因为该样本数据缺少这个属性取值，根据父结点的label情况为该结点打标记（其实是在用父结点出现的后验概率做该结点的先验概率）。

2.因此决策树的关键——如何找合适的“划分属性”

三.最优划分属性

1.信息熵(information entropy)

这里的信息是从信息论的信息，信息论里有一个非常重要的概念——信息熵，其中这个“熵”（entropy）是指对复杂系统的刻画，可以理解为系统由不稳定态到稳定态所需要丢失的部分，信息熵可以理解为信息由不干净到干净所需要丢失的部分。因此得出，在该属性划分下的出信息熵越小，纯度越高。信息熵满足公式：

$H(D) = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i)$

注：随机变量的取值个数越多，信息熵就越大，混乱程度就越大。当随机分布为均匀分布时，熵最大

2.条件熵 (Conditional entropy)

条件熵是在给定某个特征的情况下，对于分类结果的不确定性的度量。

条件熵越大，说明在给定该特征的情况下，样本的分类结果越不确定，即样本的混乱程度越高
条件熵较小，说明在给定该特征的情况下，样本的分类结果越趋向于一致，即样本的混乱程度越低

3.ID3-信息增益（information gain）

1.信息增益指的是在划分数据集前后，类别标签的混乱程度发生的减少的程度

信息增益越大，说明使用该属性进行划分可以获得更多的信息，可以更好地区分不同的类别。
信息增益越大，表示使用特征 A 来划分所获得的“纯度提升越大”
信息增益 = 信息熵 - 条件熵

2.信息增益越大表示使用特征 A 来划分所获得的“纯度提升越大”。

3.不足

ID3 没有剪枝策略，容易过拟合；
信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；
只能用于处理离散分布的特征；
没有考虑缺失值

4.C4.5

C4.5算法与ID3相似，在ID3的基础上进行了改进，采用信息增益比来选择属性。ID3选择属性用的是子树的信息增益，ID3使用的是熵（entropy，熵是一种不纯度度量准则），也就是熵的变化值，而C4.5用的是信息增益率。

5.CART

1.CART（Classification And Regression Trees 分类回归树）算法是一种树构建算法，既可以用于分类任务，又可以用于回归。相比于 ID3 和 C4.5 只能用于离散型数据且只能用于分类任务，CART 算法的适用面要广得多，既可用于离散型数据，又可以处理连续型数据，并且分类和回归任务都能处理。

2.在分类问题中，假设有K各类别，第k个类别概率为 $p_k$ ,则基尼系数的表达式为：

3.若给定样本D，如果根据特征A的某个值a，把D分为D1和D2两个部分，则在特征条件A下，D的基尼系数表达式为：

$Gini(D) = \frac{D1}{D} * Gini(D1) + \frac{D2}{D} * Gini(D2)$

同理分为n类

四.算法实现以及结果比较

1.信息熵，信息增益，信息增益率

# 计算信息熵
def entropy(p):
    if p == 0 or p == 1:
        return 0
    return -p * math.log(p, 2) - (1 - p) * math.log(1 - p, 2)


def id3_split(data, attributes, target):
    # 检查是否所有数据的目标变量都相同，或者没有更多特征可以分割
    if not attributes or all(val[target] == data[0][target] for val in data):
        return None, data[0][target]
    info_gain = {}
    for attr in attributes:
        values = set(val[attr] for val in data)
        for value in values:
            subset = [val for val in data if val[attr] == value]
            info_gain[attr, value] = id3_info_gain(subset, target)
    best_attr, best_val = max(info_gain, key=info_gain.get)
    return best_attr, best_val, [id3_split(subset, attributes - {best_attr}, target) for subset in data if subset[best_attr] == best_val]
 
def id3_info_gain(subset, target):
    info_gain = 0
    base_entropy = entropy(Counter([val[target] for val in subset])[1] / len(subset))
    for value, subset_data in Counter([val[target] for val in subset]).items():
        prob = subset_data / len(subset)
        info_gain += prob * entropy(prob)
    info_gain -= base_entropy
    return info_gain

还没做完呜呜

2.C4.5

3.CART

五.结果分析

isi_1

关注

26
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
决策树的构建

决策树是一种树形结构，其中每个内部节点（Internal Node）表示一个特征（Feature），每个分支（Branch）表示一个特征取值的判断条件，而每个叶子节点（Leaf Node）表示一个类别（Classification）或者一个数值（Regression）。通过对特征的逐层划分，决策树可以对数据进行分类或者预测。
复制链接

扫一扫