决策树(1)

分类树(决策树)是一种十分常用的分类方法(常用来解决分类和回归问题)。它是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

常用算法包括CART、ID3、C4.5等。

ID3 (J. Ross Quinlan-1975)核心:信息熵

C4.5—ID3的改进,核心:信息增益比

CART(Breiman-1984),核心:基尼指数

决策树思想类似于找对象。情景如下:

女儿:多大年纪了?   母亲:26。

女儿:长的帅不?   母亲:挺帅的。

女儿:收入高不?   母亲:不算很高,中等。

女儿:是公务员不?   母亲:是,在税务局上班。

女儿:那好,我去见见。

 决策树学习的目的:为了产生一颗泛化能力强的决策树(处理未见示例能力强)

1、信息增益

“信息熵”是度量样本集合纯度最常用的一种指标,定义为Ent(D),D为样本集合,共有k类;Ent(D)的值越小,则D的纯度越高。

当样本只属于某一类时熵最小,当样本均匀分布于所有类中时熵最大。因此,如果能找到一个分裂让熵最小,这就是我们想要的最佳分裂。

 信息增益公式:

例如,一个数据集包含17个训练样例

8个正例(好瓜)占p1 = 8/17

9个反例(坏瓜)占p2 = 9/17

对于二分类任务,|y| = 2

 题目1:以“色泽”为例计算其信息增益

(1)计算根结点信息熵

(2)计算“色泽”属性

 

 用“色泽”将根结点划分后获得3个分支结点的信息熵分别为:

 属性“色泽”的信息增益为:

 题目2:决策树生成

 

 

 先从6个维度中找出信息增益最大的属性,作为下一步“分支”;

模糊正例为0,直接认定纹理为模糊的全为坏瓜;

稍糊和清晰均有正反例,故需继续计算;

以“纹理”为例,(清晰D1,稍糊D2,模糊D3)

Ent(D3)= 0   ,信息熵最小(?),结合图可知,纹理为模糊全为坏瓜;

以纹理——“清晰”为例,已经由这9个数据里继续计算下去,可知有3个属性信息增益相当,则任选三者之一,原图选中的为“根蒂“,又在‘根蒂’稍蜷的数据集中,得出下一步”色泽“的信息增益最大(或最大之一)……

P:若选择不同,决策树也会不同

假设纹理-”清晰“选择了触感,由图中数据观察到,纹理-”清晰“||触感-"软粘"可能是好瓜也可能是坏瓜

2、增益率

3、基尼值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值