随机森林算法介绍

最新推荐文章于 2024-08-01 23:17:45 发布

Refinitiv创新实验室ARGO

最新推荐文章于 2024-08-01 23:17:45 发布

阅读量3.7k

点赞数 2

分类专栏：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IamThinker2011/article/details/83096157

版权

本文深入介绍了随机森林算法，包括其起源、基本概念、算法原理、sklearn库的参数设置以及优缺点。随机森林通过随机抽样和特征选择生成多棵决策树，通过集成学习提高模型的准确性和抗过拟合能力。文中还讨论了如何利用OOB数据评估模型性能，并对比了集成算法的错误率与单个分类器的误差。

摘要由CSDN通过智能技术生成

原创：傅佳 Refinitiv创新实验室ARGO 9月24日

专家审核：吴攀石海龙谭伟

审核：陈超施天璐 wk

"本篇包含少量基本数学公式，阅读需要约7分钟"

上次我们公众号发表了决策树算法的文章，这次基于决策树算法，我们进一步阐述其进阶算法--随机森林（RF），本文主要将五个方面阐述。

什么是随机森林
相关基本概念
算法介绍
sklearn库参数
知识扩展

一什么是随机森林

为什么会出现随机森林，就要从决策树讲起。决策树优点很多，比如可解释性强，符合人类理解，运算速度快等。但最大的缺点是，剪枝后也容易过拟合。2001年出现了随机森林算法，缓解了这一问题。

那什么是随机森林? 简而言之，就是随机生成一片由决策树构成的森林。

但随机森林的生成面临两个主要问题。因为基于同样的数据，同样的特征，按照同样的决策树算法，只能建一颗树，同样的树复制上千万次没有意义，所以建立随机森林的第一个问题就是---怎么建立不同的树。其次，如果建立了不同的树组成的森林后，每个树都会得到自己的分类结果，如何从每棵树的各自决策下得到总体最终的结果呢？这就是随机森林面临的第二个问题。

二相关基本概念

在进入随机森林的讲解之前，我们先回顾一下决策树的一些核心概念。

a 信息量，信息熵，信息增益及基尼不纯度

1) 信息量

【概念】信息多少的度量，它有如下特点

单调性，信息量和事件发生的概率有关，事件发生的概率越低，信息量越大。
非负性，信息量应该是非负的，必然发生的事件信息量为0。
累加性，两个事件的信息量可以相加，并且两个独立事件的联合信息量应该是它们各自信息量的和

【数学公式】

为什么用以二为底的对数，简单的理解，因为log函数能满足第2第3个条件，加上负号就满足了第一个条件，而用2为底是跟信息论里说的字节位数相关。

例如，德国队获的世界杯冠军，概率相对比较大，比如50%，则相应的信息量为

中国队获得世界杯冠军，因为中国队获取世界杯冠军的概率很低，比如0.1%，这个信息量则为

所以当它发生时，就会引发大家广泛讨论，去挖掘它产生的原因

2) 信息熵(Entropy)

【概念】用来度量随机变量的不确定

最低0.47元/天解锁文章

Refinitiv创新实验室ARGO

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。