南瓜书第四章 决策树

一、决策树的基本流程

1、基本概念

        决策树(decision tree)是一类常见的机器学习方法。顾名思义,决策树是基于树结构来进行决策的。一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。

亦称“判定树”。根据上下文,本书中的“决策树”有时是指学习方法有时是指学得的树。

        例如,我们要对“这是好瓜吗?”这样的问题进行决策时,通常会进行一系列的判断或“子决策”:我们先看“它是什么颜色?”,如果是“青绿色”,则我们再看“它的根蒂是什么形态?”,如果是“蜷缩”,我们再判断“它敲起来是什么声音?”,最后,我们得出最终决策:这是个好瓜.这个决策过程如图4.1所示:

        显然,决策过程的最终结论对应了我们所希望的判定结果,每个测试的结果或是导出最终结论,或是导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内,例如若在“色泽=青绿”之后再判断“根蒂=?”,则仅在考虑青绿色瓜的根蒂。

        决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之”(divide-and-conquer)策略。

2、算法原理

从逻辑角度,一堆if else语句的组合构成;

从几何角度,根据某种准则划分特征空间;

最终目的:将样本越分越“纯” (泛化信息熵,用信息熵度量样本纯度)。

3、信息熵

在对数几率回归部分已讲(http://t.csdnimg.cn/WQufA),在此将几个概念罗列一下:

信息熵越大,随机变量越不确定。

应用:现常用在集成学习中,用作森林(多棵树构成的森林模型)

二、划分选择

那如何用信息熵来度量纯度呢???

1、用信息熵来度量纯度

        将样本类别标记y视作随机变量,各个类别在样本集合D中的占比pk(k=1,2,…,|y|)视作各个类别取值的概率,则样本集合D(随机变量y)的信息熵(底数b取2)为


        此时的信息熵所代表的“不确定性”可以转换理解为集合内样本的“纯度”。信息熵越小,纯度越纯。

2、条件熵

可理解为根据x的取值划分子集,然后对不同的子集,分别算y的信息熵和此种情况下y占总体的比例,并计算两者乘积。

 3、ID3决策树

信息增益:

通俗来说:信息增益=信息熵-条件熵

    ID3决策树是以信息增益为准则来选择划分属性的决策树

选取样本中信息增益最大的属性作为我们的最优划分属性。

4、C4.5决策树

基于ID3决策树,对其进行改进。(例如“编号”这个较为极端的例子,不过其本质原因不是取值数目过多,而是每个取值里面所包含的样本量太少)

信息增益准则对可能取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,C4.5决策树选择使用“增益率”代替“信息增益”,增益率定义为:

其中



称为属性a的“固有值”,a的可能取值个数V越大,通常其固有值IV(a)也越大。但是增益率对可能取值数目较少的属性有所偏好。

        因此,C4.5决策树并未完全使用“增益率”代替“信息增益”,而是采用一种启发式的方法先选出信息增益高于平均水平的属性,然后再从中选择增益率最高的。

5、CART决策树

(1)基尼值(也可度量一个集合的纯度)

(2)CART决策树

具体划分点的选取:

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值