机器学习笔记：第4章决策树

最新推荐文章于 2023-05-17 17:37:17 发布

冲冲冲@chong

最新推荐文章于 2023-05-17 17:37:17 发布

阅读量164

点赞数

分类专栏：机器学习笔记文章标签：决策树算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57190374/article/details/128782719

版权

机器学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 递归生成决策树

TreeGenerate(D,A):

生成结点node

（1）当前结点包含的样本属于同一类别无需划分，直接返回该类型。

（2）当前样本属性集为空，或是所有样本在所有属性上取值相同，无法划分，将其叶结点标记为样本最多的类别。

（3）当前结点包含的样本集为空，无法划分，将该结点标记为叶结点且其类别标记为父结点包含的样本最多的类别

（4）从属性集A中选择最优划分属性a：

for a的每一个取值ai：

对该结点生成一个分支

if a的取值ai对应的样本集合Dv为空：

将其分支结点标记为叶结点，其类别标记为总样本集D中样本最多的类

else:

以TreeGenerate(Dv,A\{a}) 为分支结点。

2 最优属性划分

（1）信息熵：度量样本集合纯度的一种指标,值越小纯度越高：

$Ent(D)=-\sum_{k=1}^{|Y|}p_{k}log_{2}p_{k}$

（2）信息增益：信息增益越大意味着用该属性划分带来的纯度提升越大：

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v})$ 偏好可取值较多的属性。ID3算法

（3）信息增益率：增益率越大用其划分得到的纯度提升越大，一般先选取信息增益高于平均水平的属性，再从中选取增益率最高的属性：

$Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} , IV(a)=-\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}log_{2}\frac{|D^{v}|}{|D|}$ 偏好取值较少的属性，C4.5算法

（4）基尼系数：Gini(D)直观反映从数据集D随机抽取两个样本，其类别标记不一致的概率，其越小纯度越高：

$Gini(D)=1-\sum_{k=1}^{Y}p_{k}^{2},$

$Gini_index(D,a)=\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Gini(D^{v})$ 选取基尼系数最小的属性为最优划分属性，CART算法

3 剪枝处理

（1）预剪枝：基于贪心策略，在决策树生成过程判断：若当前结点划分不能带来性能提升则将其标记为叶结点。优点：开销较小；缺点：欠拟合风险大。

（2）后剪枝：决策树生成后，自底向上遍历非叶结点，判断将其剪掉后是否会提升性能，若能则标记其为叶结点。优点：欠拟合风险小，一般性能较好；缺点：开销大

冲冲冲@chong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习笔记：第4章决策树

生成结点node（1）当前结点包含的样本属于同一类别无需划分，直接返回该类型。（2）当前样本属性集为空，或是所有样本在所有属性上取值相同，无法划分，将其叶结点标记为样本最多的类别。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

冲冲冲@chong 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。