Task03:详读西瓜书+南瓜书第4章（决策树）

最新推荐文章于 2024-06-21 17:14:10 发布

喂自己袋盐492

最新推荐文章于 2024-06-21 17:14:10 发布

阅读量72

点赞数

文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_64136250/article/details/133142401

版权

声明：本笔记全部图片均来自B站UP主二次元的Datawhale，视频链接：【【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导直播合集】https://www.bilibili.com/video/BV1Mh411e7VU?p=3&vd_source=75bd1e93279e61f02a4580ce77d01f4b

决策树现在主要应用在集成学习（西瓜书第八章）里，用多颗决策树构成随机森林模型。西瓜书此章节非常详细（4.1、4.2），因此我们今天主要学习所用理论并认识下以下三类决策树。

一、算法原理

逻辑上讲，决策树是非常符合普通思维（直觉）的一种模型，核心就是选择判断条件。

几何上讲就是划分特征空间，核心是找阈值并用算法量化。

二、ID3决策树

首先我们来了解信息论中的几个概念：

信息熵就是自信息的期望，用来度量随机变量X的不确定性，之前已经学习过

可以用其所代表的不确定性来理解集合内样本的纯度

条件熵就是在已知一个标记的划分后另一个标记的不确定性，可以用来我们对特征空间进行划分后再研究子集的划分阈值

故我们可以用纯度的提升去考量算法的优劣，也就是利用信息增益，ID3决策树就是以信息增益为准则来选择划分属性的决策树。在实际第一次迭代中我们可以先遍历特征空间中的每一种特征，再看信息增益的大小，从而选出最优的划分方式。

三、C4.5决策树

ID3决策树模型在某种属性取值数目明显超出其他属性时可能存在漏洞，即那个取值里所包含的样本数量太少时存在偶然性，或者说不具备代表性，会发生过拟合。因此我们用某个特征划分的信息熵来限制下信息增益，即通过信息增益率来判断模型的好坏，这样就出现了C4.5决策树的雏形，实际上就是ID3决策树的改进。不过这样就出现了新的问题，可取值数目多信息熵一般会增大，所以增益率又对可取值数目少的特征有所偏好。

因此，C4.5决策树是先通过信息增益得到一些高于平均水平的属性，然后再选择这里面增益率最高的那一个，当然，实际操作时可根据直觉灵活应用。

四、CART决策树（二叉树）

利用基尼值来度量纯度

基尼指数：已知某个特征划分之后再按照该特征不同的值的子集求基尼指数，并最终加权相加。

CART决策树就是遍历各个特征划分后从中选取基尼指数最小的属性作为最优划分属性。而选择划分点时我们只能根据某特征等于某个值和不等于某个值分为两类，遍历所有取值后得到该特征的最优划分点与基尼指数。

喂自己袋盐492

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Task03:详读西瓜书+南瓜书第4章（决策树）

因此我们用某个特征划分的信息熵来限制下信息增益，即通过信息增益率来判断模型的好坏，这样就出现了C4.5决策树的雏形，实际上就是ID3决策树的改进。故我们可以用纯度的提升去考量算法的优劣，也就是利用信息增益，ID3决策树就是以信息增益为准则来选择划分属性的决策树。在实际第一次迭代中我们可以先遍历特征空间中的每一种特征，再看信息增益的大小，从而选出最优的划分方式。因此，C4.5决策树是先通过信息增益得到一些高于平均水平的属性，然后再选择这里面增益率最高的那一个，当然，实际操作时可根据直觉灵活应用。
复制链接

扫一扫

喂自己袋盐492 CSDN认证博客专家 CSDN认证企业博客

码龄3年

5: 原创

180万+: 周排名

29万+: 总排名

392: 访问

: 等级

50: 积分

0: 粉丝

0: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

Task04:详读西瓜书+南瓜书第五章（神经网络）
CSDN-Ada助手: 恭喜您写完了第四篇博客！标题看起来很有意思，我相信您对神经网络一定有了更深入的理解。我觉得下一步的创作可以考虑在博客中加入一些实际案例或者应用，让读者更容易理解神经网络的实际应用场景。希望您能继续努力，谦虚地分享您的知识与见解。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Task05支持向量机
CSDN-Ada助手: 恭喜作者发布了第5篇博客“Task05支持向量机”！您的持续创作精彩纷呈，为我们带来了许多有益的知识和信息。在下一篇博客中，不妨尝试增加一些实际案例或者个人见解，以便读者更好地理解和应用支持向量机的相关知识。期待您的下一篇作品！
Task03:详读西瓜书+南瓜书第4章（决策树）
CSDN-Ada助手: 恭喜您写了第三篇博客！看到您详读了《西瓜书》和《南瓜书》第4章，决策树是机器学习中重要的算法之一，这是个不错的选择。您的文章内容丰富，对决策树的理解也很到位。接下来，我建议您可以尝试以案例或实践为基础，结合具体问题展示决策树的应用，这样读者可以更加直观地理解和学习。再次祝贺您，期待您的下一篇创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Task02：详读西瓜书+南瓜书
CSDN-Ada助手: 非常棒的博客！你对于极大似然估计和最小二乘法的解释非常清晰易懂。继续保持这种优秀的创作，让读者更好地理解相关的知识。在此基础上，我想补充一些扩展的知识。除了线性回归，还有其他的回归模型，比如多项式回归、岭回归、lasso回归等等，它们可以在不同的数据情况下提供更好的拟合效果。此外，你可以了解一下正则化技术，如L1正则化和L2正则化，它们可以控制模型的复杂度，防止过拟合的发生。希望这些扩展知识能够对你的学习和进一步的博文写作有所帮助。期待看到你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

Visual Studio 2010 旗舰版的 VB.NET音频播放器程序代码

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。