机器学习笔记（XI）决策树(I)基本流程和划分选择

最新推荐文章于 2024-05-22 11:26:00 发布

王先生的副业

最新推荐文章于 2024-05-22 11:26:00 发布

阅读量1k

点赞数

分类专栏：机器学习机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/uncle_gy/article/details/78840760

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

机器学习

39 篇文章 5 订阅

订阅专栏

基本流程

决策树

一般的，一棵决策树包括包含一个根结点，若干个内部结点和若干个叶结点。

根结点

包括样本全集
从根结点到每个叶子结点的路径对应一个判定测试序列。

内部结点

一个测试属性

叶结点

决策结果

目的

产生一棵泛化能力强的，处理未预见示例能力强的决策树，基本流程遵循简单且直观“分而治之”( $divide\text{-}and\text{-}conquer$ )

基本算法

这里写图片描述

算法中的三种递归返回（三个return）

1：当前结点包含的样本全属于同一类别，无需再划分
2：当前属性集为空，或是所有样本在所有属性取值相同，无法划分。（此时：把当前结点标记为叶子节点，将其类别设定为该结点所含样本最多的类别，利用当前结点后验分布）
3：当前结点包含样本集合为空，不能划分（此时：同样把当前结点标记为叶子结点，但是其类别是父结点所含样本最多的类别，把父结点的样本分布作为当前结点的先验分布）

划分选择

信息增益

信息熵( $information\space entropy$ )

作用：度量样本集合纯度的最常用的一种指标
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2,\dots,|\mathcal{Y}|)$ ，则 $D$ 的信息熵定义为

E n t (D) = - \sum k = 1 | Y | p k log 2 p k (entropy)

$\mathop{Ent}(D)=-\sum\limits_{k=1}^{|\mathcal{Y}|}p_k\log_2p_k\tag{entropy}$

Ent(D)⇓ $\mathop{Ent}(D)\Downarrow$ , 纯度(

purity $purity$ )

⇑ $\Uparrow$

信息增益

假定离散属性 $a$ 有 $V$ 个可能的取值 $\left\{a^1,a^2,\dots,a^V\right\}$ ,如果使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ 。
计算 $D^v$ 的信息熵，考虑到不同结点的样本数不同，给分支结点赋予权重 $\dfrac{|D^v|}{|D|}$ 即样本数越多的分支结点的影响越大。
定义信息增益：

G a i n (D, a) = E n t (D) - \sum k = 1 | Y | | D v | | D | E n t (D v)

$\mathop{Gain}(D,a)=\mathop{Ent}(D)-\sum\limits_{k=1}^{|\mathcal{Y}|}\dfrac{|D^v|}{|D|}\mathop{Ent}(D^v)$

作用

一般而言，信息增益越大，则意味着使用属性 $a$ 来划分所得到的”纯度提升”越大。

不同的算法，不同的 $a_*$

$ID3$

a * = arg max a \in A G a i n (D, a)

$a_*=\mathop{\arg\max}\limits_{a\in{A}}\mathop{Gain}(D,a)$

$C4.5$

增益率

G a i n_r a t i o (D, a) = G a i n ( D , a ) I V ( a )

$\mathop{Gain\text{_}ratio}(D,a)=\dfrac{\mathop{Gain(D,a)}}{\mathop{IV}(a)}$
其中

I V (a) = - \sum v = 1 V | D v | | D | log 2 | D v | | D |

$\mathop{IV}(a)=-\sum\limits_{v=1}^{V}\dfrac{|D^v|}{|D|}\log_2\dfrac{|D^v|}{|D|}$

决策方法

从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

$CART$

基尼指数

基尼值 $\mathop{Gini}(D)$

G i n i (D) = \sum k = 1 | Y | \sum k' \neq k p k p k' = 1 - \sum k = 1 | Y | p 2 k

$\begin{aligned} \mathop{Gini}(D)&=\sum\limits_{k=1}^{|\mathcal{Y}|}\sum\limits_{k'\neq{k}}p_kp_{k'}\\ &=1-\sum\limits_{k=1}^{|\mathcal{Y}|}p_k^2 \end{aligned}$

Gini(D) $\mathop{Gini}(D)$ 反映了从数据集

D $D$ 中随机抽取两个样本，其类别标记不一致的概率,因此

Gini(D) $\mathop{Gini}(D)$ 越小，数据集

D $D$ 的纯度越高

基尼指数

G i n i_i n d e x (D, a) = \sum v = 1 V | D v | | D | G i n i (D v)

$\mathop{Gini\text{_}index}(D,a)=\sum\limits_{v=1}^{V}\dfrac{|D^v|}{|D|}\mathop{Gini}(D^v)$

决策方法

a * = arg min a \in A G i n i_i n d e x (D, a)

$a_*=\mathop{\arg\min}\limits_{a\in{A}}\mathop{Gini\text{_}index}(D,a)$

王先生的副业

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（XI）决策树(I)基本流程和划分选择

基本流程决策树一般的，一棵决策树包括包含一个根结点，若干个内部结点和若干个叶结点。根结点包括样本全集从根结点到每个叶子结点的路径对应一个判定测试序列。内部结点一个测试属性叶结点决策结果目的产生一棵泛化能力强的，处理未预见示例能力强的决策树，基本流程遵循简单且直观“分而治之”(divide-and-conquerdivide\text{-}and\text{-}conquer)基本算法算法中的三种
复制链接

扫一扫