机器学习--day9--决策树整个流程

言沫341

于 2023-05-26 21:07:49 发布

阅读量60

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_67479809/article/details/130893840

版权

首先，看大佬的文章

https://blog.csdn.net/qq_42433311/article/details/124171221

很6，看完对决策数的理解会上一层楼，其中的交叉验证如何使用，pd. Dates如何使用，多看看，去实践，更熟练，

接上篇决策树的三个方面

ID3：ID3 算法最早是由罗斯昆（J. Ross Quinlan）于1975年提出的一种决策树构建算法，算法的核心是“信息熵”，期望信息越小，信息熵越大，样本纯度越低。。

ID3 算法是以信息论为基础，以信息增益为衡量标准，从而实现对数据的归纳分类。

ID3 算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性。

ID3算法其大致步骤为：

初始化特征集合和数据集合；

计算数据集合信息熵和所有特征的条件熵，选择信息增益最大的特征作为当前决策节点；

更新数据集合和特征集合（删除上一步使用的特征，并按照特征值来划分不同分支的数据集合）；

重复 2，3 两步，若子集值包含单一特征，则为分支叶子节点。

信息熵：不会怎么把公式打进来，直接文字描述

求和∑分类类别的概率*log(以2为底的对数函数)上面是分类类别概率

条件熵：和信息熵一样，就是概率不一样，信息熵是最后分类的标签的概率，条件熵是每个特征的概率，看实例更容易理解

信息增益：信息熵－条件熵

C4.5

C4.5 算法是 Ross 对 ID3 算法的改进。用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，而C4.5用的是信息增益率。在决策树构造过程中进行剪枝。对非离散数据也能处理。能够对不完整数据进行处理。

基尼指数：

比较重要，大部分应用都是基尼指数，看最上面的那个会很好的理解

Classification and Regression Tree (CART) 是决策树的一种。用基尼指数来选择属性（分类），或用均方差来选择属性（回归）。顾名思义，CART算法既可以用于创建分类树，也可以用于创建回归树，两者在构建的过程中稍有差异。如果目标变量是离散的，称为分类树。如果目标变量是连续的，称为回归树。

剪枝策略：

为了尽可能正确分类训练样本，有可能造成分支过多，造成过拟合。泛化性能通过剪枝处理去掉一些分支来降低过拟合。

剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（post-pruning）预剪枝（pre-pruning）：

预剪枝：

是什么：在决策树生长过程中，对每个结点在划分前进行估计，若当前结点的划分不能带来决策树泛化性能的提升，则停止划分并将当前结点标记为叶结点。

剪枝策略:在节点划分前来确定是否继续增长，及早停止增长主要方法有：节点内数据样本低于某一阈值；所有节点特征都已分裂；节点划分前准确率比划分后准确率高。

「预剪枝」过程如下:将其标记为叶结点，类别标记为训练样例中最多的类别。

后剪枝（post-pruning）：

1.先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能的提升，则将该子树替换为叶结点。

2.在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树。

预剪枝和后剪枝的特点：

1.时间开销：

预剪枝：训练时间开销降低，测试时间开销降低。后剪枝：训练时间开销增加，测试时间开销降低。

2.过/欠拟合风险：预剪枝：过拟合风险降低，欠拟合风险增加。后剪枝：过拟合风险降低，欠拟合风险基本不变。

3.泛化性能：后剪枝通常优于预剪枝

连续值和离散值的处理：

对于离散取值的特征，决策树的划分方式是：选取一个最合适的特征属性，然后将集合按照这个特征属性的不同值划分为多个子集合，并且不断的重复这种操作的过程。对于连续值属性，需要连续属性离散化处理，常用的离散化策略是二分法，这个技术也是 C4.5 中采用的策略。

决策树是直观的，其决策也易于解释。这种模型通常称为白盒模型。通常将随机森林或神经网络视为黑盒模型。它们做出了很好的预测，你可以轻松地检查它们为做出这些预测而执行的计算。但是，通常很难用简单的话语来解释为什么做出这样的预测。决策树提供了很好的、简单的分类规则，如果需要的话，甚至可以手动应用这些规则

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习--day9--决策树整个流程

对于离散取值的特征，决策树的划分方式是：选取一个最合适的特征属性，然后将集合按照这个特征属性的不同值划分为多个子集合，并且不断的重复这种操作的过程。是什么：在决策树生长过程中，对每个结点在划分前进行估计，若当前结点的划分不能带来决策树泛化性能的提升，则停止划分并将当前结点标记为叶结点。很6，看完对决策数的理解会上一层楼，其中的交叉验证如何使用，pd. Dates如何使用，多看看，去实践，更熟练，条件熵：和信息熵一样，就是概率不一样，信息熵是最后分类的标签的概率，条件熵是每个特征的概率，看实例更容易理解。
复制链接

扫一扫

言沫341 CSDN认证博客专家 CSDN认证企业博客

码龄3年

16: 原创

137万+: 周排名

120万+: 总排名

1276: 访问

: 等级

218: 积分

2: 粉丝

19: 获赞

18: 评论

1: 收藏

私信

关注

热门文章

最新评论

机器学习--day9--决策树整个流程
CSDN-Ada助手: 恭喜您写了第10篇博客，标题看起来非常有意思！看来您对机器学习的掌握越来越深入了。下一步建议可以考虑分享一些实际案例，让读者更好地理解决策树的应用场景和效果。期待您的下一篇文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
day8－－决策树－－介绍
CSDN-Ada助手: 恭喜您写了第9篇博客，标题为“day8－－决策树－－介绍”。作为读者，我感到非常兴奋，因为您的文章内容非常有趣和富有启发性。我非常期待您未来的创作，希望您可以继续分享更多关于机器学习和数据科学的知识，并且在文章中给出更多的实践案例和技巧。谢谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。
机器学习--day7--NB算法
CSDN-Ada助手: 非常感谢您的不懈努力，写了这么多篇博客，尤其是这篇关于NB算法的分享。您的文章非常清晰明了，让我对这个算法有了更深入的了解。希望您能继续保持这种热情和创造力，分享更多有关机器学习的知识。同时，如果您能在博客中加入一些实际案例的应用和实验结果的解读，那将会更加生动有趣。再次感谢您的付出。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
机器学习--day7--NB算法
言沫341:
机器学习--day7--NB算法
上仙好运来: 不要忘记每天

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。