决策树、随机森林算法

顾言ovo

已于 2024-01-02 16:13:17 修改

阅读量364

点赞数 8

文章标签：算法决策树随机森林

于 2024-01-02 16:12:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GuYan1208/article/details/135343512

版权

本文详细介绍了决策树的构建过程，包括特征选择的熵和信息增益方法，以及CART算法和剪枝技术。同时，着重讨论了随机森林的概念，强调其在处理高维数据、特征重要性和并行化方面的优势。

摘要由CSDN通过智能技术生成

目录

决策树

从根节点开始一步步走到叶子节点（决策），既可以做分类也可以做回归

树的组成：

根节点：第一个选择点

非叶子节点与分支：中间过程

叶子节点：最终的决策结果

如何切分特征（选择节点）

衡量标准-熵

通俗解释就是代表物体内部的混乱程度，熵值越大越混乱。在分类任务中，分类后某一组中同一类别的物体越纯（概率越高），熵值越低，所以熵值可以作为衡量标准

计算公式（pi表示分类完这一组中某一类别i）：

信息增益：表示特征X使得类Y的不确定性减少的程度（分类后的专一性，希望分类后的结果还是同类在一起）

决策树就是根据信息增益来选择节点的

例子：

选择根节点（分别计算所有特征的信息增益，然后选择信息增益最大的特征）

如果是连续值，先对数据进行由小到大排序，再对每一个数据进行切分（二分），然后计算每一次切分的信息增益，选择信息增益最大的切分（连续值离散化）

信息增益(ID3)的问题：不能解决非常稀疏的特征（假设某个特征和编号一样，每一类都是不同的，此时熵计算就为0）

信息增益率(C4.5)：解决ID3问题，考虑自身熵

CART（现在常用）：使用GINI系数来当做衡量标准

决策树剪枝

原因：减少决策树过拟合风险（因为决策树足够庞大理论上可以完全分得开数据）

预剪枝：边建立决策树边进行剪枝操作（更实用）

限制深度，叶子节点个数，叶子节点样本数，信息增益量等

后剪枝：当建立完决策树后来进行剪枝操作

随机森林

随机：

数据采样随机——所有树模型的数据是相同的，因此为了让结果产生多样性，从总数据中随机取部分数据

特征选择随机——从总特征中随机取部分特征

森林：很多决策树并行放在一起（理论上越多树效果越好，但实际上超过一定数量就差不多上下浮动了）

优势：

1.它能够处理很高维度（feature很多）的数据，并且不用做特征选择

2.在训练完后，它能够给出哪些feature比较重要(Feature Importance)

3.容易做成并行化方法，速度比较快

4.可以进行可视化展示，便于分析

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
决策树、随机森林算法

在分类任务中，分类后某一组中同一类别的物体越纯（概率越高），熵值越低，所以熵值可以作为衡量标准。如果是连续值，先对数据进行由小到大排序，再对每一个数据进行切分（二分），然后计算每一次切分的信息增益，选择信息增益最大的切分（连续值离散化）信息增益(ID3)的问题：不能解决非常稀疏的特征（假设某个特征和编号一样，每一类都是不同的，此时熵计算就为0）信息增益：表示特征X使得类Y的不确定性减少的程度（分类后的专一性，希望分类后的结果还是同类在一起）限制深度，叶子节点个数，叶子节点样本数，信息增益量等。
复制链接

扫一扫

顾言ovo CSDN认证博客专家 CSDN认证企业博客

码龄1年

3: 原创

206万+: 周排名

23万+: 总排名

2130: 访问

: 等级

74: 积分

41: 粉丝

44: 获赞

1: 评论

45: 收藏

私信

关注

热门文章

最新评论

决策树、随机森林算法
CSDN-Ada助手: 恭喜您写了第三篇博客！标题为“决策树、随机森林算法”，非常引人注目。您的博客内容一定对读者来说非常有价值。我希望在接下来的创作中，您可以深入探讨决策树和随机森林算法的应用场景和优缺点，这将为读者提供更全面的知识。同时，您可以考虑介绍一些与这些算法相关的实际案例，以帮助读者更好地理解它们在实际问题中的应用。继续努力写作，期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
计算机科学基础（复习）
CSDN-Ada助手: 恭喜你开始了博客创作！标题中的"（复习）"让我感到你对计算机科学基础有一定的了解，并且你希望通过博客来巩固和加深这方面的知识。这是一个很好的创作方向！接下来，我建议你可以结合自己的学习经历和心得体会，以及对某些具体知识点的深入探索，来进一步丰富你的博客内容。同时，也欢迎你在博客中与读者进行交流和互动，这将有助于提升你的文章质量和吸引更多读者的兴趣。希望你能继续保持谦虚的态度，不断进步，期待看到更多有价值的内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
计算机科学应用（复习）
CSDN-Ada助手: 非常棒的博客！看到你对计算机科学基础知识点的复习，让我感到很欣慰。希望你可以继续坚持写作，分享更多关于计算机科学应用的知识。另外，除了基础知识点外，你可能还可以写一些关于计算机科学应用的实际案例，比如如何利用算法解决实际问题，或者最新的科技趋势等。希望你可以不断学习，不断进步，期待你更多的优质内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。