随机森林算法梳理

最新推荐文章于 2023-05-05 21:30:42 发布

续梦2019

最新推荐文章于 2023-05-05 21:30:42 发布

阅读量235

点赞数

本文链接：https://blog.csdn.net/hujiawen123456789/article/details/90144379

版权

1.集成学习（Ensemble Learning）

概念：集成学习方法现在是非常火爆的机器学习方法了。所谓的集成，即是将多个弱分类器按一定的方式组合成一个强分类器，集成方法就是这样的一种方法。

2.个体学习器

概念：个体学习器是一个相对概念，集成学习方法中的弱分类器就是个体学习器。

3.boosting 与bagging

集成学习方法就是将各个弱分类器按一定方式进行组合，组合方式有两种，分别是 boosting 和 bagging。
（1）bagging：对训练样本有放回的进行抽样（即有些样本可能被多次抽取到，而有些样本一次都没有被抽到），随机森林算法即是采用bagging方法。各个若分类器组合方式为：投票法，即少数服从多数。
（2）boosting：代表算法为adaboost。初始化时对每个训练样本赋予相同的权重，然后迭代的生成多个弱分类器，各个弱分类器串行生成。每次训练后，对训练分类错误的样本赋予较大的权重，被正确分类的样本的权重被减小，这样得到多个弱分类器和权重，最后的预测结果采用加权求和的方式。

4.随机森林

思想：随机森林是集成学习方法中较简单的一种，采用bagging的方法生成训练样本，并通过投票的方式来得到强分类器。
算法步骤：
（1）进行有放回的从训练样本中抽取n个样本（存在抽取多个重复的样本以及有些样本没有被抽到）；
（2）从样本特征数a中随机选择k个特征，进行训练，得到一个弱分类器；
（3）重复（1）（2）m次得到k个弱分类器；
（4）采用投票机制来进行预测

5.随机森林算法的优缺点

优点：
（1）可以用来解决分类和回归问题，可以同时处理分类和数值特征；
（2）抗过拟合能力；
（3）表现性能好，相比于其它算法有很大优势；
（4）训练速度快，可以并行生成多个弱分类器；
（5）可以处理高维度的数据（特征较多的数据），不用做特征选择。
缺点：
（1）在噪音较大的分类或回归问题上会过拟合；
（2）训练速度相比于单个分类器慢；
（3）对于许多统计建模者来说，随机森林给人的感觉就像一个黑盒子，你无法控制模型内部的运行。只能在不同的参数和随机种子之间进行尝试。