决策树的一些理解

最新推荐文章于 2022-02-10 17:29:41 发布

richard1230

最新推荐文章于 2022-02-10 17:29:41 发布

阅读量256

点赞数

分类专栏： ai 机器学习文章标签：决策树 ai 机器学习

本文链接：https://blog.csdn.net/richard1230/article/details/97536992

版权

ai 同时被 2 个专栏收录

23 篇文章 1 订阅

订阅专栏

机器学习

11 篇文章 0 订阅

订阅专栏

文章目录

几个概念

熵

在信息论里面，熵是对不确定性的测量。但是在信息世界，熵越高，则能传输越多的信息，熵越低，则意味着传输的信息越少。
1948年，香农引入了信息熵，将其定义为离散随机事件出现的概率，一个系统越是信息量低，信息熵就越低，反之一个系统越是信息量高，它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。
信息熵就是用来描述信息源（量）的不确定度，变量的不确定性越大(不确定性越大,其信息量也就越大),熵也就越大

$H(x)=E\left[l\left(x_{i}\right)\right]=E\left[\log \left(2,1 / P\left(x_{i}\right)\right)\right]=-\sum P\left(x_{i}\right) \log \left(2, P\left(x_{i}\right)\right)(i=1,2, . . n)$

条件熵

H(Y|X) = H(X,Y)-H(X)

在这里插入图片描述

上图代表(x,y)发生所包含的熵
在这里插入图片描述

H(Y|X) = H(X,Y)-H(X)可以这么理解:
(x,y)发生所包含的熵,减去X单独发生所包含的熵,等于在X发生的前提下，Y发生“新”带来的熵;上式定义为x发生前提下，Y的熵;
H(Y|X) = H(X,Y)-H(X)可以转化为下式子:
$-\sum_{x \cdot y} p(x, y) \log p(x, y)+\sum_{x} P(x) \log P(x)$
$=-\sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y)+\sum_{x \in X} P(x) \log P(x)$
$=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x \in X} \sum_{y \in Y} p(x, y) \log P(x)$
$=-\sum_{x, y} P(x, y) \log P(x, y)+\sum_{x, y} p(x, y) \log p(x)$
$=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)}$
$=-\sum_{x, y} P(x, y) \log p(y | x) =H(Y|X)$

信息增益

预备知识

假设训练数据集为D,|D|表示样本个数,样本的总类别为K个(注意:这里不是样本总数!), $C_k|$ (K=1,2,…K),为第k类的样本个数,有 $\sum_{k}\left|C_{k}\right|=|D|$ ;
设特征A有N个不同的取值 $\left\{a_{1}, a_{2}, \cdots, a_{n}\right\}$
根据A的特征取值将D划分为n个子集: $D_{1}, D_{2} \cdots D_{n}$ ,
注意:这里的经验熵(信息熵)是和类相关的:
$H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$ , $\left|D_{i}\right|$ 为 $D_{i}$ 的样本个数,且: $\sum_{i}\left|D_{i}\right|=|D|$ ,
记子集 $D_{i}$ 中属于类 $C_{k}$ 的样本集合为 $D_{i k}$ ,即: $D_{i k}=D_{i} \cap C_{k}$ , $\left|D_{i k}\right|$ 为 $D_{i k}$ 的样本个数,
举个例子:
$C_1$ =9 (出去打网球这种类别), $C_2$ = 5(不出去打网球这种类别);
样本总数 $∣ D ∣$ =14;
以天气这个特征(A)为例,A假设分为三类 $\left\{a_{1}, a_{2}, a_{3}\right\}$ ,分别对应{suny,overcast(阴天),windy},所对应的三个子集为 $D_{1}, D_{2},D_{3}$ ,分别对应为5,4,5;
$D_1$ 里面有些是出去打网球的，有些是不出去打网球的, $D_{i k}$ 表示特征里面的第i这个子集当中k这个类别它的样本个数;
由上面的式子可以知道:
特征A对数据集D的经验条件熵 $H (D ∣ A)$ 为:(注意:这是与特征相关的！！！)
$A)=-\sum_{i, k} p\left(D_{k}, A_{i}\right) \log p\left(D_{k} | A_{i}\right)$
$\begin{array}{l}{=-\sum_{i, k} p\left(A_{i}\right) p\left(D_{k} | A_{i}\right) \log p\left(D_{k} | A_{i}\right)} \\ {=-\sum_{i=1}^{n} \sum_{k=1}^{K} p\left(A_{i}\right) p\left(D_{k} | A_{i}\right) \log p\left(D_{k} | A_{i}\right)} \\ {=-\sum_{i=1}^{n} p\left(A_{i}\right) \sum_{k=1}^{K} p\left(D_{k} | A_{i}\right) \log p\left(D_{k} | A_{i}\right)} \\ {=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D |} \sum_{k=1}^{K} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|} \log \frac{\left|D_{i k}\right|}{\left|D_{i}\right|}}\end{array}$
信息增益: $g (D, A) = H (D) - H (D ∣ A)$

总结:
打个比方, 总的样本数可以按照某个类别分为两类,A类9，B类5
另一方面，总的样本数可以按照某个特征可以分为3(分别为1,2,3类)类,分别为5,4,5

信息增益的理解

通过上面可以知道,信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下，随机变量的复杂度(不确定度),
而信息增益恰好是：信息熵-条件熵=H(Y)-H(Y|X)。

换句话说，信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度。

在决策树算法中，我们的关键就是每次选择一个特征，特征有多个，那么到底按照什么标准来选择哪一个特征。
这个问题就可以用信息增益来度量。如果选择一个特征后，信息增益最大（信息不确定性减少的程度最大），那么我们就选取这个特征。

在这里插入图片描述

信息增益率(C4.5)

$g_{R}(D, A)=\frac{g(D, A)}{H_{A}(D)}$
注意：其中的HA(D)，对于样本集合D，将当前特征A作为随机变量（取值是特征A的各个特征值），求得的经验熵。

基尼系数(CART算法–分类树)

定义：基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。

    注意： Gini指数越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。

$\operatorname{Gini}(\mathrm{p})=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2}$
说明:

pk表示选中的样本属于k类别的概率，则这个样本被分错的概率是(1-pk)
样本集合中有K个类别，一个随机选中的样本可以属于这k个类别中的任意一个，因而对类别就加和
当为二分类是，Gini§ = 2p(1-p)

以二分类为例,基尼系数指的是得到2次不同类别的概率！

决策树评价与剪枝

在这里插入图片描述

在这里插入图片描述
假设训练数据集为D,|D|表示样本个数,样本的总类别为K个(注意:这里不是样本总数!), $n_k$ (K=1,2,…K),为第k类的样本个数,有 $\sum_{k}\left|n_{k}\right|=|D|$ ;
叶子是分类结果的一个判断依据;(叶子节点没有子节点！！！如上图所示)
1.如果某类样本 $n_{j}=n$ ，而 $\mathrm{n}_{1}, \ldots, \mathrm{n}_{\mathrm{j}-1}, \mathrm{n}_{\mathrm{j}+1}, \ldots, \mathrm{n}_{\mathrm{K}}=0$ ,此时该节点为“纯节点”(最终结果就是只有一类,样本全是这一类)
2.如果样本数目 $\mathrm{n}_{1}=\mathrm{n}_{2}=\ldots=\mathrm{n}_{\mathrm{k}}=\mathrm{n} / \mathrm{K}$ ，称该样本为“均节点”;(此时不容易猜测类别)
3.对所有叶结点的熵求和,该值越小说明对样本的分类越精确;
各叶结点包含的样本数目不同,可使用样本数加权求熵和;
4.评价函数
$C(T)=\sum_{t \in l e a f} N_{t} \cdot H(t)$
其中,N(t)为当前结点的样本个数,H(t)为当前结点的熵
由于评价函数越小越好,所以又可以称之为“损失函数”
在这里插入图片描述

剪枝

预剪枝

1.事先给定一个结点包含多少个样本
2.给定书的高度
3.给定一个熵值

后剪枝

在这里插入图片描述

假设结点2的 $N_2$ =37,H(2)=0.900;
剪枝后的C(T):
$\alpha|T|=37*0.900 + \alpha$
剪枝后的|T|取1,叶子节点此时为1,即为它本身;
剪枝之前的C(T):
$C(T)=C(R)+\alpha \cdot N_{R}$
$N_R$ 为子树的叶结点个数,这里为以2结点为根结点的子树的结点个数;
其中C®:
$C(R)=\sum_{i=1}^{N_{R}} N_{t} H(t)$
注:以2结点为根结点的子树而言,这里的 $N_R$ =3; $N_t$ 为这三个叶子节点中每个叶子节点所包含的样本数,H(t)可以计算出来或者已知;
如果C( r) = 10，C( R)=100, $\alpha$ = 10000,此时C( r)+ $\alpha$ = 10010 (这个值比较小), $C(R)+\alpha \cdot N_{R}$ =140000+100
如果C( r) = 10，C( R)=1, $\alpha=1 \times 10^{-4}$ ,此时C( r)+ $\alpha$ = $\times 10^{-4}$ , $C(R)+\alpha \cdot N_{R}$ = $\times 1 \times 10^{-4}$ (这个值比较小)

$C(r)+\alpha=C(R)+N_{R} \cdot \alpha$
$\alpha=\frac{C(r)-C(R)}{N_{R}-1}$ , $\alpha \in(0,+\infty)$ ,上面这个式子成立时，其意义为:剪掉这个枝与不剪掉这个枝其损失值是一样的！

剪枝思路

在这里插入图片描述

由完全树T0开始,剪枝部分结点得到T1,再次剪枝得到T2…直到仅剩树根的树Tk;
在验证数据集上对这K个数分别评价,选择损失函数最小的树 $T_{\alpha}$

在这里插入图片描述

先剪掉最小的 $\alpha$ ,再减去次小的 $\alpha$ 所对应的子树;依次类推，最后直到根节点;

richard1230

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树的一些理解

文章目录几个概念熵条件熵信息增益预备知识信息增益的理解信息增益率(C4.5)基尼系数(CART算法--分类树)决策树评价与剪枝剪枝预剪枝后剪枝几个概念熵在信息论里面，熵是对不确定性的测量。但是在信息世界，熵越高，则能传输越多的信息，熵越低，则意味着传输的信息越少。1948年，香农引入了信息熵，将其定义为离散随机事件出现的概率，一个系统越是信息量低，信息熵就越低，反之一个系统越是信息量高，它...
复制链接

扫一扫

专栏目录