机器学习之决策树(未完成)

决策树

例题为选西瓜问题,情景如下:我们要对"这是好瓜吗?“这样的问题
进行决策时,通常会进行一系列的判断或"子决策"我们先看"它是什么颜
色?”,如果是"青绿色",则我们再看"它的根蒂是什么形态?",如果是"蜷
缩",我们再判断"它敲起来是什么声音?",最后?我们得出最终决策:这是个
好瓜.这个决策过程如图所示.
在这里插入图片描述

决策树基本流程:
图2

分析

	根据流程可以看出,实际上是一个递归过程,在多次的决策中确定自己的节点。那么会有三种导致递归返回的结果:①当前节点所包含的所有样品属于同一类别,无需划分。②当前属性集为空,或者所有样品在属性上均相同,无法划分。③当前节点的样本集合为空,无法划分。
	此时,关键问题在上图2第八行,即是需要解决的,如何最优划分属性,最终结果我们希望决策树的分支节点包含的样本尽可能属于同一类别,即纯度越来越高

信息熵

	"信息熵" 是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为Pk (k = 1, 2,. . . , IYI) ,则D的信息熵定义为
	![在这里插入图片描述](https://img-blog.csdnimg.cn/b1f3992d52cc4f87985b1d748a17c798.png)

Ent(D)的值越小,则D的纯度最高。
于是假定离散属性a中有V个可能的取值,若使用a对样本进行划分,则会有V个分支节点,其中第V个分支节点包含了D中所有在属性a上取值为av的样本,给分支节点赋予权重|Dv|/|D|,即样本数越多的分支节点的影响越大,此时计算出用属性a对样本集D进行划分所获得的“信息增益”
在这里插入图片描述

增益率

实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种

偏好可能带来的不利影响,著名的 C4.5 决策树算法 [Quinlan 1993J 不直接使
用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性.采用与相同的符号表示,增益率定义为

在这里插入图片描述

基尼指数

CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index) 来选
择划分属性.采用与式(4.1) 相同的符号,数据集 的纯度可用基尼值来度量:
在这里插入图片描述
直观来说, Gini(D) 反映了从数据集 中随机抽取两个样本,其类别标记
不一致的概率.因此, Gini(D) 越小,则数据集 的纯度越高.
采用与式(4.2) 相同的符号表示,属性 的基尼指数定义为在这里插入图片描述
于是,我们在候选属性集合 中,选择那个使得划分后基尼指数最小的属
性作为最优划分属性,即a= argmin GiniJndex(D α).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值