第四章 决策树

第四章 决策树

决策树学习的目的是为了产生一 颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之"策略。

基本过程;

在这里插入图片描述

4.2划分选择

​ 由算法4.2可看出,决策树学习的关键是第8行,即如何选择最优划分属性.一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(纯度)越来越高.

4.2.1信息增益

​ “信息熵”(information entropy)是度量样本集合纯度最常用的-种指标.假定当前样本集合D中第k类样本所占的比例为ph (k= 1,2…1.1|), 则D 的信息熵定义为
$$

Ent(D)=ΣPk log2Pk .

$$
Ent(D)的值越小,则D的纯度越高.

​ 假定离散属性a有V个可能的取值{a’,.2…,aV},若使用a来对样本集D进行划分,则会产生V个分支结点,其中第u个分支结点包含了D中所有在,属性a.上取值为a"的样本,记为D".我们可根据式(4.1)计算出D"的信息熵,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重|D"|/|ID|,即样本数越多的分支结点的影响越大,于是可计算出用属性a对样本集D进行划分所获得的“信息增益”(information gain)

[\在这里插入图片描述

4.2.2增益率

​ 实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的C4.5决策树算法 不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性.采用与式(4.2)相同的符号表示,增益率定义为

在这里插入图片描述

4.2.3基尼指数

数据集D的纯度可用基尼值来度量:.

在这里插入图片描述

直观来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率.因此, Gini(D)越小,则数据集D的纯度越高.采用与式(4.2)相同的符号表示,属性a的基尼指数定义为

在这里插入图片描述

4.3剪枝处理

​ 剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段…因此,可通过主动去掉一些分支来降低过拟合的风险.决策树剪枝的基本策略有“预剪枝”和“后剪枝”。

因此,可通过主动去掉一些分支来降低过拟合的风险.决策树剪枝的基本策略有“预剪枝”和“后剪枝”。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值