决策树

最新推荐文章于 2022-07-02 15:24:54 发布

呼啦圈.

最新推荐文章于 2022-07-02 15:24:54 发布

阅读量709

点赞数

文章标签：机器学习决策树

本文链接：https://blog.csdn.net/qq_40131486/article/details/106071607

版权

介绍

决策树(DecisionTree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

常见的决策树算法有ID3、C4.5以及CART。但在讨论这些之前，我们先了解一下熵的概念。

熵

熵这个概念最早起源于物理学，在物理学中是用来度量热力学系统的无序程度；而在信息学里，熵则是对不确定性的度量。1948年，香农引入了信息熵，将其定义为离散随机事件出现的概率。一个系统越是有序，信息熵越低，反之一个系统越是混乱，它的信息熵就越高。

假设一个随机变量 $X$ 的取值为 $X = \{x_1, x_2, ..., x_n\}$ ，每一种值取到的概率分别为 ${p_1, p_2, ..., p_n\}$ ，那么熵的定义为 $\sum_{i=1}^n p_i log_2 p_i$

对于分类模型来说，类别 $C$ 是变量，它的取值为 $C_1, C_2, ..., C_n$ ，而每个类别出现的概率分别为 $P(C_1), P(C_2), ..., P(C_n)$ , 这里 n 是类别的总数，此时分类模型的熵就可以表示为 $-\sum_{i=1}^n P(C_i) log_2 P(C_n)$

这是一家高尔夫球俱乐部的历史数据，里面记录了不同天气状况用户来打高尔夫球的历史记录。我们要做的是通过构建决策树来预测用户是否会来打高尔夫球。

日期	天气	温度	湿度	风速	活动
1	晴	炎热	高	弱	取消
2	晴	炎热	高	强	取消
3	阴	炎热	高	弱	进行
4	雨	适中	高	弱	进行
5	雨	寒冷	正常	弱	进行
6	雨	寒冷	正常	强	取消
7	阴	寒冷	正常	强	进行
8	晴	适中	高	弱	取消
9	晴	寒冷	正常	弱	进行
10	雨	适中	正常	弱	进行
11	晴	适中	正常	强	进行
12	阴	适中	高	强	进行
13	阴	炎热	正常	弱	进行
14	雨	适中	高	强	取消

ID3

ID3 (Iterative Dichotomiser 3)，即迭代二叉树 3代。核心思想就是以信息增益来度量属性，优先选择信息增益最大的属性进行分裂。

计算信息熵

数据集中共14个样本，活动 (Label) 包含9个正例和5个负例，当前属性的信息熵计算如下
$-\frac{9}{14}log_2\frac{9}{14} - \frac{5}{14}log_2\frac{5}{14} = 0.94$

以天气为例，各分支的信息熵计算如下

$-\frac{2}{5}log_2\frac{2}{5} - \frac{3}{5}log_2\frac{3}{5} = 0.97$
$-\frac{4}{4}log_2\frac{4}{4} - 0·log_2·0 = 0$
$-\frac{3}{5}log_2\frac{3}{5} - \frac{2}{5}log_2\frac{2}{5} = 0.97$

天气的信息熵
$\frac{5}{14}·0.97 + \frac{4}{14}·0 + \frac{5}{14}·0.97 = 0.694$

同理，其他几个属性的信息熵

$E n t r o p y (温度) = 0.911$
$E n t r o p y (湿度) = 0.789$
$E n t r o p y (风速) = 0.892$

计算信息增益

信息增益的计算公式
$\sum_{value(T)} \frac{|S_v|}{S} Entropy(S_v)$

$I G (天气) = E n t r o p y (S) - E n t r o p y (天气) = 0.94 - 0.694 = 0.246$
$I G (温度) = E n t r o p y (S) - E n t r o p y (温度) = 0.94 - 0.911 = 0.029$
$I G (湿度) = E n t r o p y (S) - E n t r o p y (湿度) = 0.94 - 0.789 = 0.15$
$I G (风速) = E n t r o p y (S) - E n t r o p y (风速) = 0.94 - 0.892 = 0.048$

在决策树的每一个非叶子结点划分之前，先计算每一个属性所带来的信息增益，优先选择最大信息增益的属性来划分。信息增益越大，区分样本的能力越强，越具有代表性。

C4.5

假设，每个属性中的每种类别都只有一个样本，那属性的信息熵就等于零，继续使用信息增益就无法选择出有效分类特征。所以，C4.5在ID3的基础上做出了改进，使用信息增益率对属性进行分裂，以减少信息增益容易选择特征值多的属性的缺点。

计算属性分裂信息度量

$-\frac{5}{14}log_2\frac{5}{14} -\frac{5}{14}log_2\frac{5}{14} -\frac{4}{14}log_2\frac{4}{14} = 1.577$
$-\frac{4}{14}log_2\frac{4}{14} -\frac{6}{14}log_2\frac{6}{14} -\frac{4}{14}log_2\frac{4}{14} = 1.556$
$-\frac{7}{14}log_2\frac{7}{14} -\frac{7}{14}log_2\frac{7}{14} = 1.0$
$-\frac{6}{14}log_2\frac{6}{14} -\frac{8}{14}log_2\frac{8}{14} = 0.048$

计算信息增益率

$I G R (天气) = I G (天气) / H (天气) = 0.246 / 1.577 = 0.155$
$I G R (温度) = I G (温度) / H (温度) = 0.029 / 1.556 = 0.0186$
$I G R (湿度) = I G (湿度) / H (湿度) = 0.151 / 1.0 = 0.151$
$I G R (风速) = I G (风速) / H (风速) = 0.048 / 0.985 = 0.048$

C4.5有效克服了ID3中存在的多值属性的问题，计算每一个属性所带来的信息增益率，优先选择最大信息增益率的属性来划分。信息增益率越大，区分样本的能力越强，越具有代表性。

CART

无论是 ID3 还是 C4.5，都是基于熵的模型，里面会涉及到大量的对数运算，我们能否在此基础上进行简化，节省运算时间？于是就有了 GINI指数。

GINI指数公式
$\sum_{i=1}^k p_k·(1 - p_k) = 1 - \sum_{i=1}^k p_k^2$

基尼指数的意义是从数据集D中随机抽取样本类别标识不一致的概率，基尼指数越小，数据集的纯度越高。

以天气为例，各分支的GINI指数计算如下

$(\frac{2}{5}^2 + \frac{3}{5}^2) = 0.48$
$(\frac{4}{4}^2 + \frac{0}{0}^2) = 0$
$(\frac{3}{5}^2 + \frac{2}{5}^2) = 0.48$

天气的GINI指数
$\frac{5}{14}·0.48 + \frac{4}{14}·0 + \frac{5}{14}·0.48 = 0.342$

同理，其他几个属性的GINI指数

$G i n i (温度) = 0.439$
$G i n i (湿度) = 0.367$
$G i n i (风速) = 0.428$

Gini系数越小，属性的纯度越高。

剪枝

决策树的基本剪枝策略有 预剪枝 (Pre-Pruning) 和 后剪枝 (Post-Pruning) 。首先将数据集划分成训练集和验证集，训练集用来决定树生成过程中每个结点划分所选择的属性；验证集在预剪枝中用于决定该结点是否有必要依据该属性进行展开，在后剪枝中用于判断该结点是否需要进行剪枝。

预剪枝

在每一次实际对结点进行划分之前，先采用验证集的数据来验证如果划分是否能提高划分的准确性。如果不能，就把结点标记为叶结点并退出进一步划分；如果可以就继续递归生成节点。

后剪枝

后剪枝则是先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来泛化性能提升，则将该子树替换为叶结点。

优缺点对比

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝	分类变量	样本量
ID3	分类	多叉树	信息增益	不支持	不支持	不支持	分类变量	已退出舞台
C4.5	分类	多叉树	信息增益率	支持	支持	支持	连续变量和分类变量	小样本
CART	分类、回归	二叉树	GINI系数/均方差	支持	支持	支持	连续变量和分类变量	大样本

呼啦圈.

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
决策树

目录决策树熵ID3计算信息熵计算信息增益C4.5计算属性分裂信息度量计算信息增益率CART剪枝预剪枝后剪枝决策树决策树(DecisionTree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。常见的决策树算法有ID3、C4.5以及CART。但在讨论这些之前，我们先了解一下熵的概念。熵熵这个概念最早起源于物理学，在物理学中是用来度量
复制链接

扫一扫