随机森林算法梳理

1.集成学习(Ensemble Learning)

概念:集成学习方法现在是非常火爆的机器学习方法了。所谓的集成,即是将多个弱分类器按一定的方式组合成一个强分类器,集成方法就是这样的一种方法。

2.个体学习器

概念:个体学习器是一个相对概念,集成学习方法中的弱分类器就是个体学习器。

3.boosting 与bagging

集成学习方法就是将各个弱分类器按一定方式进行组合,组合方式有两种, 分别是 boosting 和 bagging。
(1)bagging:对训练样本有放回的进行抽样(即有些样本可能被多次抽取到,而有些样本一次都没有被抽到),随机森林算法即是采用bagging方法。各个若分类器组合方式为:投票法,即少数服从多数。
(2)boosting:代表算法为adaboost。初始化时对每个训练样本赋予相同的权重,然后迭代的生成多个弱分类器,各个弱分类器串行生成。每次训练后,对训练分类错误的样本赋予较大的权重,被正确分类的样本的权重被减小,这样得到多个弱分类器和权重,最后的预测结果采用加权求和的方式。

4.随机森林

思想:随机森林是集成学习方法中较简单的一种,采用bagging的方法生成训练样本,并通过投票的方式来得到强分类器。
算法步骤:
(1)进行有放回的从训练样本中抽取n个样本(存在抽取多个重复的样本以及有些样本没有被抽到);
(2)从样本特征数a中随机选择k个特征,进行训练,得到一个弱分类器;
(3)重复(1)(2)m次 得到k个弱分类器;
(4)采用投票机制来进行预测

5.随机森林算法的优缺点

优点:
(1)可以用来解决分类和回归问题,可以同时处理分类和数值特征;
(2)抗过拟合能力;
(3)表现性能好,相比于其它算法有很大优势;
(4)训练速度快,可以并行生成多个弱分类器;
(5)可以处理高维度的数据(特征较多的数据),不用做特征选择。
缺点:
(1)在噪音较大的分类或回归问题上会过拟合;
(2)训练速度相比于单个分类器慢;
(3)对于许多统计建模者来说,随机森林给人的感觉就像一个黑盒子,你无法控制模型内部的运行。只能在不同的参数和随机种子之间进行尝试。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值