随机森林算法介绍

本文深入介绍了随机森林算法,包括其起源、基本概念、算法原理、sklearn库的参数设置以及优缺点。随机森林通过随机抽样和特征选择生成多棵决策树,通过集成学习提高模型的准确性和抗过拟合能力。文中还讨论了如何利用OOB数据评估模型性能,并对比了集成算法的错误率与单个分类器的误差。
摘要由CSDN通过智能技术生成

原创: 傅佳  Refinitiv创新实验室ARGO  9月24日

专家审核:吴攀 石海龙 谭伟

审       核:陈超 施天璐 wk

"本篇包含少量基本数学公式,阅读需要约7分钟"

上次我们公众号发表了决策树算法的文章,这次基于决策树算法,我们进一步阐述其进阶算法--随机森林(RF),本文主要将五个方面阐述。

  •  什么是随机森林

  •  相关基本概念

  •  算法介绍

  •  sklearn库参数

  •  知识扩展

一 什么是随机森林

为什么会出现随机森林,就要从决策树讲起。决策树优点很多,比如可解释性强,符合人类理解,运算速度快等。 但最大的缺点是,剪枝后也容易过拟合。2001年出现了随机森林算法,缓解了这一问题。

那什么是随机森林? 简而言之,就是随机生成一片由决策树构成的森林。

但随机森林的生成面临两个主要问题。 因为基于同样的数据,同样的特征,按照同样的决策树算法,只能建一颗树,同样的树复制上千万次没有意义,所以建立随机森林的第一个问题就是---怎么建立不同的树。其次,如果建立了不同的树组成的森林后,每个树都会得到自己的分类结果,如何从每棵树的各自决策下得到总体最终的结果呢? 这就是随机森林面临的第二个问题。

二 相关基本概念

在进入随机森林的讲解之前,我们先回顾一下决策树的一些核心概念。

a 信息量,信息熵,信息增益及基尼不纯度

1) 信息量

【概念】 信息多少的度量,它有如下特点

  • 单调性,信息量和事件发生的概率有关,事件发生的概率越低,信息量越大。

  • 非负性,信息量应该是非负的,必然发生的事件信息量为0。

  • 累加性,两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是它们各自信息量的和

【数学公式】

为什么用以二为底的对数,简单的理解,因为log函数能满足第2第3个条件,加上负号就满足了第一个条件,而用2为底是跟信息论里说的字节位数相关。

例如,德国队获的世界杯冠军,概率相对比较大,比如50%,则相应的信息量为

中国队获得世界杯冠军,因为中国队获取世界杯冠军的概率很低,比如0.1%,这个信息量则为

所以当它发生时,就会引发大家广泛讨论,去挖掘它产生的原因

 

2)  信息熵(Entropy)

【概念】用来度量随机变量的不确定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值