第四章 决策树
决策树学习的目的是为了产生一 颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之"策略。
基本过程;
4.2划分选择
由算法4.2可看出,决策树学习的关键是第8行,即如何选择最优划分属性.一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(纯度)越来越高.
4.2.1信息增益
“信息熵”(information entropy)是度量样本集合纯度最常用的-种指标.假定当前样本集合D中第k类样本所占的比例为ph (k= 1,2…1.1|), 则D 的信息熵定义为
$$
Ent(D)=ΣPk log2Pk .
$$
Ent(D)的值越小,则D的纯度越高.
假定离散属性a有V个可能的取值{a’,.2…,aV},若使用a来对样本集D进行划分,则会产生V个分支结点,其中第u个分支结点包含了D中所有在,属性a.上取值为a"的样本,记为D".我们可根据式(4.1)计算出D"的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重|D"|/|ID|,即样本数越多的分支结点的影响越大,于是可计算出用属性a对样本集D进行划分所获得的“信息增益”(information gain)
[\
4.2.2增益率
实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的C4.5决策树算法 不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性.采用与式(4.2)相同的符号表示,增益率定义为
4.2.3基尼指数
数据集D的纯度可用基尼值来度量:.
直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率.因此, Gini(D)越小,则数据集D的纯度越高.采用与式(4.2)相同的符号表示,属性a的基尼指数定义为
4.3剪枝处理
剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段…因此,可通过主动去掉一些分支来降低过拟合的风险.决策树剪枝的基本策略有“预剪枝”和“后剪枝”。
因此,可通过主动去掉一些分支来降低过拟合的风险.决策树剪枝的基本策略有“预剪枝”和“后剪枝”。