机器学习笔记（XI）决策树(I)基本流程和划分选择

最新推荐文章于 2023-10-31 20:08:40 发布

王先生的副业

最新推荐文章于 2023-10-31 20:08:40 发布

阅读量1k

点赞数

分类专栏：机器学习机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/uncle_gy/article/details/78840760

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

机器学习

39 篇文章 5 订阅

订阅专栏

基本流程

决策树

一般的，一棵决策树包括包含一个根结点，若干个内部结点和若干个叶结点。

根结点

包括样本全集
从根结点到每个叶子结点的路径对应一个判定测试序列。

内部结点

一个测试属性

叶结点

决策结果

目的

产生一棵泛化能力强的，处理未预见示例能力强的决策树，基本流程遵循简单且直观“分而治之”( $divide\text{-}and\text{-}conquer$ )

基本算法

这里写图片描述

算法中的三种递归返回（三个return）

1：当前结点包含的样本全属于同一类别，无需再划分
2：当前属性集为空，或是所有样本在所有属性取值相同，无法划分。（此时：把当前结点标记为叶子节点，将其类别设定为该结点所含样本最多的类别，利用当前结点后验分布）
3：当前结点包含样本集合为空，不能划分（此时：同样把当前结点标记为叶子结点，但是其类别是父结点所含样本最多的类别，把父结点的样本分布作为当前结点的先验分布）

划分选择

信息增益

信息熵( $information\space entropy$ )

作用：度量样本集合纯度的最常用的一种指标
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2,\dots,|\mathcal{Y}|)$ ，则 $D$ 的信息熵定义为

E n t (D) = - \sum k = 1 | Y | p k log 2 p k (entropy)

$\mathop{Ent}(D)=-\sum\limits_{k=1}^{|\mathcal{Y}|}p_k\log_2p_k\tag{entropy}$

Ent(D)⇓ $\mathop{Ent}(D)\Downarrow$ , 纯度(

purity $purity$ )

⇑ $\Uparrow$

信息增益

假定离散属性 $a$ 有 $V$ 个可能的取值 $\left\{a^1,a^2,\dots,a^V\right\}$ ,如果使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ 。
计算 $D^v$ 的信息熵，考虑到不同结点的样本数不同，给分支结点赋予权重 $\dfrac{|D^v|}{|D|}$ 即样本数越多的分支结点的影响越大。
定义信息增益：

G a i n (D, a) = E n t (D) - \sum k = 1 | Y | | D v | | D | E n t (D v)

$\mathop{Gain}(D,a)=\mathop{Ent}(D)-\sum\limits_{k=1}^{|\mathcal{Y}|}\dfrac{|D^v|}{|D|}\mathop{Ent}(D^v)$

作用

一般而言，信息增益越大，则意味着使用属性 $a$ 来划分所得到的”纯度提升”越大。

不同的算法，不同的 $a_*$

$ID3$

a * = arg max a \in A G a i n (D, a)

$a_*=\mathop{\arg\max}\limits_{a\in{A}}\mathop{Gain}(D,a)$

$C4.5$

增益率

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a )

$\mathop{Gain\text{_}ratio}(D,a)=\dfrac{\mathop{Gain(D,a)}}{\mathop{IV}(a)}$
其中

I V (a) = - \sum v = 1 V | D v | | D | log 2 | D v | | D |

$\mathop{IV}(a)=-\sum\limits_{v=1}^{V}\dfrac{|D^v|}{|D|}\log_2\dfrac{|D^v|}{|D|}$

决策方法

从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

$CART$

基尼指数

基尼值 $\mathop{Gini}(D)$

G i n i (D) = \sum k = 1 | Y | \sum k' \neq k p k p k' = 1 - \sum k = 1 | Y | p 2 k

$\begin{aligned} \mathop{Gini}(D)&=\sum\limits_{k=1}^{|\mathcal{Y}|}\sum\limits_{k'\neq{k}}p_kp_{k'}\\ &=1-\sum\limits_{k=1}^{|\mathcal{Y}|}p_k^2 \end{aligned}$

Gini(D) $\mathop{Gini}(D)$ 反映了从数据集

D $D$ 中随机抽取两个样本，其类别标记不一致的概率,因此

Gini(D) $\mathop{Gini}(D)$ 越小，数据集

D $D$ 的纯度越高