目录
3.4 C4.5算法关于连续数值特征的处理方法 ---- 二分法
前言
有很多新手刚刚接触大数据与人工智能方向学习,如果不知道怎么着手的,跟我一起慢慢进步叭~
提示:以下是本篇文章正文内容,下面案例可供参考
一、面向分类问题的决策树特征选择
1、纯节点、不纯节点
若到达某节点的训练样本集只含一类样本,则该节点为纯节点,或同质节点;
否则,为不纯节点,或异构节点。
2、节点的不纯度(杂度)
关于决策树节点不纯程度的度量。
节点不纯度的典型度量方式:
前提:
1.2.1 熵不纯度
1.2.2 方差不纯度
1.2.3 误差不纯度
两类别分类,关于同一个数据集的三种不纯度度量与某类概率关系:
3、基于不纯度的节点特征选择规则 ---- 以分类树为例
一般而言,随着节点划分的不断进行,希望决策树分支节点所含样本尽量来自相同类别,即:节点的纯度不断增加。
3.1 信息增益
信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第 k 类样本所占的比例为pk,则D的信息熵定义为:
Ent(D)的值越小,D的纯度越高。
假定离散属性a有v个可能的取值{a1,a2,…,av},若使用a来对样本集D进行划分,则会产生v个分支节点,其中第v个分支节点包含了D中所有在属性a上取值为av的样本,记为Dv,我们可根据上式计算出Dv的信息熵,再考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重|Dv| / |D|,即样本数越多的分支节点的影响越大,于是可计算出用属性a对样本集D进行划分所获得的信息增益:
一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大,即每次划分分支时选择信息增益最大的那个属性。
3.2 增益率
实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的决策树算法不直接使用信息增益,而是使用增益率来选择最后划分属性。增益率定义为:,其中,
称为属性a的固有值。
一般来说,属性a的可能取值数目越多(即v越大),则IV(a)的值通常会越大。
需要注意的是,增益率准则对可取值数目较少的属性有所偏好。因此,我们并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
3.3 基尼指数
CART决策树使用基尼指数来选择划分属性。数据集D的纯度可用基尼值来度量:
直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,数据集D的纯度越高。
属性a的基尼指数定义为:
我们在侯选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。
二、分类树的构建
1、决策树算法的研究历史
第一个决策树算法:CLS
真正引发决策树研究热潮的算法:ID3,其增量版本还有:ID4,ID5等。
最流行的决策树算法:C4.5,以ID3为基础,可处理连续特征的算法。
通用的决策树算法:CART