西瓜书第四章决策树

RRZN

已于 2022-05-27 00:29:38 修改

阅读量132

点赞数

文章标签：决策树

于 2022-05-27 00:26:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59011740/article/details/124995443

版权

一、基本流程。

决策树包含一个根节点、若干内部结点、若干叶结点，决策树是一个递归过程。

叶结点——决策结果

其他节点——属性测试

根节点——样本全集

二、划分选择

1.信息增益

信息熵：度量样本集合纯度的常用指标。

2.增益率

减少偏好可能带来的不利影响。

C4.5算法：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

3.基尼指数

CART决策树使用基尼指数划分属性

三、剪枝处理

解决过拟合问题。

预剪枝：在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

后剪枝：先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

一般情况下，后剪枝决策树的欠拟合风险很小，泛化性能往往由于预剪枝，但训练时间要大得多。

四、连续与缺失值

1.连续值的处理

连续属性离散化，二分法最简单

2.缺失值处理

五、多变量决策树

线性分类器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
西瓜书第四章决策树

一、基本流程。决策树包含一个根节点、若干内部结点、若干叶结点，决策树是一个递归过程。叶结点——决策结果其他节点——属性测试根节点——样本全集二、划分选择1.信息增益信息熵：度量样本集合纯度的常用指标。2.增益率减少偏好可能带来的不利影响。C4.5算法：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。3.基尼指数CART决策树使用基尼指数划分属性三、剪枝处理解决过拟合问题。预剪枝：在决策树生成过程中，对每个结点在划分前先进行
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。