决策树学习

最新推荐文章于 2024-07-09 23:02:26 发布

you should know me

最新推荐文章于 2024-07-09 23:02:26 发布

阅读量717

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56521651/article/details/123723333

版权

一.基本流程

组成：

一颗决策树包含一个根结点、若干个子结点和若干个叶结点。
根结点：包含样本全集；
子结点：对应属性划分，包含划分样本；
叶结点：对应决策结果，包含决策样本。
从根结点到每个叶结点的路径：对应一个判定测试序列（系列子决策）。

策略：决策树采用分而治之策略，

算法：

frank yogan

决策树的生成是一个递归过程。核心是最优划分属性的选择，有三种情形导致递归返回：
(1) 当前结点包含的样本全属于同一类别，无需划分，该结点类别确定。
(2) 所有样本在所有属性值相同，或属性集为空，无法划分，该结点类别设定为所含样本最多的类别。
(3) 当前结点包含的样本集合为空，不能划分。父结点类别确定。
二.划分选择

其中涉及到信息熵。其特性为单调性，非负性，累加性。

其中有信息增益-ID3决策树，增益率-C4.5决策树，基尼指数-CART决策树。（了解不深，就不细说了。）

三.剪枝处理

预剪枝
预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

仅有一层划分的决策树称为“决策树桩
预剪枝基于贪心策略，预划分当前结点，减少了决策树的分支。

优点：显著减少了决策树的训练时间开销和测试时间开销；
降低了过拟合的风险；

缺点：数据集可能存在当前划分验证集精度低，但后续划分显著提高的情形，无法得到最优决策树；
增加了欠拟合的风险；
后剪枝
后剪枝是先从训练集生成一颗完整的决策树，然后自底向上地非叶结点进行考察，若将该结点对应子树替换为叶结点能带来决策树泛化能力的提高，则将该子树替换为叶结点。

优点：保留了更多分支，泛化性能往往优于预剪枝决策树；
降低了欠拟合的风险；

缺点：先从训练集生成一颗完整的决策树，训练时间开销和测试时间开销比未剪枝决策树和预剪枝决策树要大得多；

连续与缺失值 多变量决策树

这两个方面也只是看了看，没有整理什么，后续补上。

you should know me

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树学习

一.基本流程组成：一颗决策树包含一个根结点、若干个子结点和若干个叶结点。根结点：包含样本全集；子结点：对应属性划分，包含划分样本；叶结点：对应决策结果，包含决策样本。从根结点到每个叶结点的路径：对应一个判定测试序列（系列子决策）。策略：决策树采用分而治之策略，算法：决策树的生成是一个递归过程。核心是最优划分属性的选择，有三种情形导致递归返回：(1) 当前结点包含的样本全属于同一类别，无需划分，该结点类别确定。(2) 所有样本在所有属性值相同，或属性集为空，无法划分，该结点类别设.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。