第四章决策树

最新推荐文章于 2024-10-16 19:12:10 发布

anaiei

最新推荐文章于 2024-10-16 19:12:10 发布

阅读量281

点赞数

文章标签：决策树机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anaiei/article/details/125418843

版权

第四章决策树

决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而治之"策略。

基本过程；

在这里插入图片描述

4.2划分选择

由算法4.2可看出，决策树学习的关键是第8行,即如何选择最优划分属性.一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(纯度)越来越高.

4.2.1信息增益

“信息熵”(information entropy)是度量样本集合纯度最常用的-种指标.假定当前样本集合D中第k类样本所占的比例为ph (k= 1,2…1.1|), 则D 的信息熵定义为
$$

Ent(D)=ΣPk log2Pk .

$$
Ent(D)的值越小，则D的纯度越高.

假定离散属性a有V个可能的取值{a’,.2…,aV},若使用a来对样本集D进行划分，则会产生V个分支结点,其中第u个分支结点包含了D中所有在，属性a.上取值为a"的样本,记为D".我们可根据式(4.1)计算出D"的信息熵,再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重|D"|/|ID|,即样本数越多的分支结点的影响越大，于是可计算出用属性a对样本集D进行划分所获得的“信息增益”(information gain)

[\ 在这里插入图片描述

4.2.2增益率

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5决策树算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性.采用与式(4.2)相同的符号表示，增益率定义为

在这里插入图片描述

4.2.3基尼指数

数据集D的纯度可用基尼值来度量:.

在这里插入图片描述

直观来说，Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率.因此, Gini(D)越小，则数据集D的纯度越高.采用与式(4.2)相同的符号表示，属性a的基尼指数定义为

在这里插入图片描述

4.3剪枝处理

剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段…因此，可通过主动去掉一些分支来降低过拟合的风险.决策树剪枝的基本策略有“预剪枝”和“后剪枝”。

因此，可通过主动去掉一些分支来降低过拟合的风险.决策树剪枝的基本策略有“预剪枝”和“后剪枝”。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。