分类树(决策树)是一种十分常用的分类方法(常用来解决分类和回归问题)。它是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
常用算法包括CART、ID3、C4.5等。
ID3 (J. Ross Quinlan-1975)核心:信息熵
C4.5—ID3的改进,核心:信息增益比
CART(Breiman-1984),核心:基尼指数
决策树思想类似于找对象。情景如下:
女儿:多大年纪了? 母亲:26。
女儿:长的帅不? 母亲:挺帅的。
女儿:收入高不? 母亲:不算很高,中等。
女儿:是公务员不? 母亲:是,在税务局上班。
女儿:那好,我去见见。
决策树学习的目的:为了产生一颗泛化能力强的决策树(处理未见示例能力强)
1、信息增益
“信息熵”是度量样本集合纯度最常用的一种指标,定义为Ent(D),D为样本集合,共有k类;Ent(D)的值越小,则D的纯度越高。
当样本只属于某一类时熵最小,当样本均匀分布于所有类中时熵最大。因此,如果能找到一个分裂让熵最小,这就是我们想要的最佳分裂。
信息增益公式:
例如,一个数据集包含17个训练样例
8个正例(好瓜)占p1 = 8/17
9个反例(坏瓜)占p2 = 9/17
对于二分类任务,|y| = 2
题目1:以“色泽”为例计算其信息增益
(1)计算根结点信息熵
(2)计算“色泽”属性
用“色泽”将根结点划分后获得3个分支结点的信息熵分别为:
属性“色泽”的信息增益为:
题目2:决策树生成
先从6个维度中找出信息增益最大的属性,作为下一步“分支”;
模糊正例为0,直接认定纹理为模糊的全为坏瓜;
稍糊和清晰均有正反例,故需继续计算;
以“纹理”为例,(清晰D1,稍糊D2,模糊D3)
Ent(D3)= 0 ,信息熵最小(?),结合图可知,纹理为模糊全为坏瓜;
以纹理——“清晰”为例,已经由这9个数据里继续计算下去,可知有3个属性信息增益相当,则任选三者之一,原图选中的为“根蒂“,又在‘根蒂’稍蜷的数据集中,得出下一步”色泽“的信息增益最大(或最大之一)……
P:若选择不同,决策树也会不同
假设纹理-”清晰“选择了触感,由图中数据观察到,纹理-”清晰“||触感-"软粘"可能是好瓜也可能是坏瓜
2、增益率
3、基尼值