随机森林概述

随机森林是一种集成学习算法,由多棵决策树组成,通过Bootstrap抽样和特征随机选择降低模型方差。它在训练时利用包外误差评估模型,能计算变量重要性,广泛应用于分类和回归问题。随机森林通过多棵树的预测结果投票或平均得到最终预测,有效防止过拟合。
摘要由CSDN通过智能技术生成

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。

在SIGAI之前的公众号文章“大话AdaBoost算法”中我们介绍了集成学习的思想以及Boosting算法,今天的文章中我们将为大家介绍另外一种集成学习算法-随机森林。随机森林由多棵决策树组成,采用多棵决策树联合进行预测可以有效提高模型的精度。这些决策树用对训练样本集随机抽样构造出的样本集训练得到。由于训练样本集由随机抽样构造,因此称为随机森林。随机森林不仅对训练样本进行抽样,还对特征向量的分量随机抽样,在训练决策树时,每次寻找最佳分裂时只使用一部分抽样的特征分量作为候选特征进行分裂。

集成学习

集成学习(ensemble learning)是机器学习中的一种思想,而不是指某一具体算法,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型称为弱学习器(weak learner)。在预测时使用这些弱学习器模型联合进行预测;训练时需要用训练样本集依次训练出这些弱学习器。这种集体决策的例子在我们的日常生活中经常会见到,如医生集体会诊,如果对某一病人的情况拿不定主意,可以让多位医生一起来诊断,用他们各自的诊断结果进行投票,得到最终的诊断结果。因此,集成学习是一种非常符合人类思维习惯的方法。

Bootstrap抽样

在概率论与数理统计中,我们学习过随机抽样的概念,统计学的核心思想是用样本推断整体,即用随机抽取的样本来研究所有样的特征。Bootstrap抽样是一种数据抽样方法,它是构成Bagging算法和随机森林的基础。所谓抽样是指从一个样本数据集中随机抽取一些样本,形成新的数据集。这里有两种选择:有放回抽样和无放回抽样。对于前者,一个样本被抽中之后会放回去,在下次抽样时还有机会被抽中。对于后者,一个样本被抽中之后就从抽样集中去除,下次不会再参与抽样,因此一个样本最多只会被抽中一次。在这里Bootstrap使用的是有放回抽样。我们可以给这种做法一个形象的解释,公司年会抽奖时,有两种做法,第一种是一个人中奖之后不能再继续参与抽奖,这是无放回抽样;否则就是有放回抽样,这会造成运气好的人多次中奖。

Bootstrap抽样的做法是在n个样本的集合中有放回的抽取n个样本形成一个数据集。在这个新的数据集中原始样本集中的一个样本可能会出现多次,也可能不出现。例如,如果有有10个样本,Bootstrap抽样从它们中随机的抽取出10个,下面两种情况都是可能发生的:

1 1 1 1 1 1 1 1 1 1

1 2 3 4 5 6 7 8 9 10

第一种结果是10次都抽中了1,第二种是1-10这10个样本每个都被抽中一次。

假设样本集中有n个样本,每次抽中其中任何一个样本的概率都为1/n,即等概率,一个样本在每次抽样中没被抽中的概率为1-1/n。由于是有放回的抽样,每两次抽样之间是独立的,因此对于连续n次抽样,一个样本没被抽中的概率为:

可以证明,当n趋向于无穷大时这个值的极限是1/e,约等于0.368,其中e是自然对数的底数。即如下结论成立:

证明过程很简单,在微积分中,有这样一个重要极限:

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值