西瓜书学习笔记4

西瓜书学习笔记——决策树

一、基本流程

一颗决策树包含一个根结点、若干个子结点和若干个叶结点。
根结点:包含样本全集;
子结点:对应属性划分,包含划分样本;
叶结点:对应决策结果,包含决策样本。
从根结点到每个叶结点的路径:对应一个判定测试序列(系列子决策)。

决策树采用分而治之(Divide and Conquer)策略,以一系列的子决策决定分类结果。

决策树的生成是一个递归过程。核心是最优划分属性的选择,有三种情形导致递归返回:
(1) 当前结点包含的样本全属于同一类别,无需划分,该结点类别确定。
(2) 所有样本在所有属性值相同,或属性集为空,无法划分,该结点类别设定为所含样本最多的类别(利用当前结点的后验分布)。
(3) 当前结点包含的样本集合为空,不能划分。父结点类别确定(利用当前结点的先验分布)。

二、划分选择

判断最优划分属性的的依据是随着划分过程不断进行的,我们希望分支结点所包含的样本尽可能属于同一类,即结点的纯度(purity)越来越高。简单的说就是每一次根据某个条件分类之后,尽可能使样本都符合这个条件,说明我们的分类条件是极具区分意义的,能够明显的将样本分开。

信息熵的定义

信息熵(Information Entropy)用来描述信源的不确定度,一件事情发生的概率越小,事件发生后所包含的信息量越大,信息熵越高。首先我们用信息熵来度量样本集合的纯度(purity),一个样本集合的信息熵越低,则其纯度越高。

信息熵的公式定义
在这里插入图片描述

其中,D 指样本集;y 指样本总共有多少类;k 指第k类样本;pk 指第k类样本在D中的比例。

Ent(D)最小值为0,最大值为log2∣y∣.

信息熵的三个性质

  1. 单调性:发生概率越高的事件,其携带的信息量越低;
  2. 非负性:信息熵可以看作为一种广度量,非负性是一种合理的必然;
  3. 累加性:即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。

ID3决策树算法 使用信息增益(Information Gain)选择划分属性。
偏好:信息增益对可取数目较多的属性有所偏好。

属性a的信息增益公式定义为:
在这里插入图片描述
其中,D指样本集;a指属性;v 和V指a所有可能的取值;Dv指属性值为v vv时划分得到的子集。

信息增益最优属性
信息增益越大,意味着由这个属性来进行划分对纯度的提升越大,即对决策的帮助越大。所以对每个属性均求出信息增益,再取最大的那个,就是最优划分属性。

信息增益最优属性公式定义
在这里插入图片描述

如果一个属性对每个样本的取值都是不同的,那么针对这个属性的每个取值只包含一个样本并且分支结点的纯度已达最大,这样的决策树显然没有泛化能力,无法对新样本进行预测。因为新的样本在这个属性的值与决策树所学习的均不相同。因为信息增益准则对可取值数目较多的属性有偏好。所以增益率要对信息增益进行优化。
增益率公式定义
在这里插入图片描述

IV(a)称为属性a的固有值(intrinsic value),属性a的可能取值数目越多,IV(a)的值越大,增益率就越小。所以我们在应用增益率准则的时候,先从划分属性中选择信息增益高于平均水平的属性,再进行二次选择,选择增益率最高的作为最终的最优化分属性。

基尼值是另一种度量数据集纯度的指标,与信息熵性质一样。其反映了从数据集中随机抽取两个样本,其类别不一致的概率。因此,基尼值越小,则数据集的纯度越高。

基尼值公式定义
在这里插入图片描述

属性a的基尼指数公式定义为:
在这里插入图片描述
最优化分属性
选基尼指数最小的那个属性作为最优化分属性:
在这里插入图片描述

三、剪枝处理

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。
预剪枝基于贪心策略,预划分当前结点,减少了决策树的分支。

优点:

显著减少了决策树的训练时间开销和测试时间开销;
降低了过拟合的风险;
缺点:

数据集可能存在当前划分验证集精度低,但后续划分显著提高的情形,无法得到最优决策树;
增加了欠拟合的风险;

后剪枝是先从训练集生成一颗完整的决策树,然后自底向上地非叶结点进行考察,若将该结点对应子树替换为叶结点能带来决策树泛化能力的提高,则将该子树替换为叶结点。

后剪枝相对预剪枝保留了更多的分支。

优点:

保留了更多分支,泛化性能往往优于预剪枝决策树;
降低了欠拟合的风险;
缺点:

先从训练集生成一颗完整的决策树,训练时间开销和测试时间开销比未剪枝决策树和预剪枝决策树要大得多;

四、连续与缺失值

之前基于离散属性生成决策树,现在考虑使用连续属性。由于连续属性可取值数目无限,使用连续属性离散化技术。最简单的策略采用二分法(bi-partition),将给定连续属性的区间的中位点作为候选划分点。
在这里插入图片描述

计算纯度的方式跟之前一致,但是将中位点值替换为划分属性值。同时输入可以变成范围值,泛化能力增强。

C4.5:Information Gain (Ratio) based Threshold
CART:遍历所有输入变量j 和切分点s,根据最小化平方误差准则选取;

缺失值面临的两个问题:

如何在属性缺失的情况下进行属性划分选择?
给定划分属性,样本在该属性上的缺失值,如何对样本进行划分?
对于第一个问题,若取值未知,则根据其他样本的取值来计算划分点。
对于第二个问题,若取值未知,则将该样本同时划入所有子结点,且设置一个样本权值用于计算loss。

缺失值处理方法:
4. 插值法(Imputation): QUEST, CRUISE
5. 替代法(Alternate/Surrogate Splits):CART, CRUISE
6. 缺失值单独分支(Missing value branch):CHAID, GUIDE
7. 概率权重(Probability weights): C4.5

五、多变量决策树

多变量决策树是用属性的线性组合(对应多变量)划分结点。

将样本集合对应多维空间,每个属性对应一个维度,分类就是在不同类空间寻找边界。单变量决策树的分类边界是由若干个与坐标轴平行的分段组成。

在这里插入图片描述
多变量决策树的分类边界是由若干个折线分段组成。
在这里插入图片描述

六、参考链接

(1条消息) 《西瓜书》第四章 决策树 笔记_u013307195的博客-CSDN博客

(1条消息) 西瓜书笔记(4)_weixin_41872340的博客-CSDN博客

(1条消息) 机器学习西瓜书笔记(四)--------------决策树_超超人不会飞的博客-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值