随机森林算法介绍

本文深入介绍了随机森林算法,包括其起源、基本概念、算法原理、sklearn库的参数设置以及优缺点。随机森林通过随机抽样和特征选择生成多棵决策树,通过集成学习提高模型的准确性和抗过拟合能力。文中还讨论了如何利用OOB数据评估模型性能,并对比了集成算法的错误率与单个分类器的误差。
摘要由CSDN通过智能技术生成

原创: 傅佳  Refinitiv创新实验室ARGO  9月24日

专家审核:吴攀 石海龙 谭伟

审       核:陈超 施天璐 wk

"本篇包含少量基本数学公式,阅读需要约7分钟"

上次我们公众号发表了决策树算法的文章,这次基于决策树算法,我们进一步阐述其进阶算法--随机森林(RF),本文主要将五个方面阐述。

  •  什么是随机森林

  •  相关基本概念

  •  算法介绍

  •  sklearn库参数

  •  知识扩展

一 什么是随机森林

为什么会出现随机森林,就要从决策树讲起。决策树优点很多,比如可解释性强,符合人类理解,运算速度快等。 但最大的缺点是,剪枝后也容易过拟合。2001年出现了随机森林算法,缓解了这一问题。

那什么是随机森林? 简而言之,就是随机生成一片由决策树构成的森林。

但随机森林的生成面临两个主要问题。 因为基于同样的数据,同样的特征,按照同样的决策树算法,只能建一颗树,同样的树复制上千万次没有意义,所以建立随机森林的第一个问题就是---怎么建立不同的树。其次,如果建立了不同的树组成的森林后,每个树都会得到自己的分类结果,如何从每棵树的各自决策下得到总体最终的结果呢? 这就是随机森林面临的第二个问题。

二 相关基本概念

在进入随机森林的讲解之前,我们先回顾一下决策树的一些核心概念。

a 信息量,信息熵,信息增益及基尼不纯度

1) 信息量

【概念】 信息多少的度量,它有如下特点

  • 单调性,信息量和事件发生的概率有关,事件发生的概率越低,信息量越大。

  • 非负性,信息量应该是非负的,必然发生的事件信息量为0。

  • 累加性,两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是它们各自信息量的和

【数学公式】

为什么用以二为底的对数,简单的理解,因为log函数能满足第2第3个条件,加上负号就满足了第一个条件,而用2为底是跟信息论里说的字节位数相关。

例如,德国队获的世界杯冠军,概率相对比较大,比如50%,则相应的信息量为

中国队获得世界杯冠军,因为中国队获取世界杯冠军的概率很低,比如0.1%,这个信息量则为

所以当它发生时,就会引发大家广泛讨论,去挖掘它产生的原因

 

2)  信息熵(Entropy)

【概念】用来度量随机变量的不确定

随机森林(Random Forest)是一种集成学习算法,它基于决策树构建多个决策树,并通过投票或平均的方式来进行预测。随机森林的原理是通过集成多个决策树来降低过拟合风险,并提高预测的准确性。 下面是随机森林算法的基本原理: 1. 随机采样:随机森林算法在每个决策树的构建过程中,对训练数据进行有放回的随机采样。这意味着每个决策树的训练集是通过对原始训练集进行有放回采样得到的,这样可以保证每个训练集都是略有不同的。 2. 随机特征选择:在每个决策树的节点分裂过程中,随机森林算法只考虑一个随机选择的特征子集。这样可以避免某些特征占据主导地位,增加模型的多样性。 3. 决策树构建:对于每个决策树,随机森林算法使用训练集进行递归地分割,直到达到终止条件。每个节点上的特征选择和分割过程与普通决策树算法相似。 4. 预测和投票:对于分类问题,随机森林算法通过投票的方式来进行预测。每个决策树都会给出一个预测结果,最终的预测结果是得票最多的类别。对于回归问题,随机森林算法通过对各个决策树的预测结果取平均来进行预测。 随机森林算法的优点包括:具有较好的泛化能力,对特征空间的线性和非线性关系都能较好地刻画,对异常值和噪声具有较好的鲁棒性。同时,随机森林算法也可以进行特征重要性评估,帮助我们了解哪些特征对预测的贡献更大。 随机森林算法在机器学习中有广泛的应用,包括分类、回归、特征选择等领域。它通常能够取得较好的预测性能,并且相对于单个决策树算法来说,能够减少过拟合的风险。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值