机器学习之路（八）随机森林

最新推荐文章于 2021-09-11 18:32:12 发布

皮的开心

最新推荐文章于 2021-09-11 18:32:12 发布

阅读量760

点赞数

分类专栏：机器学习文章标签：机器学习随机森林集成学习

本文链接：https://blog.csdn.net/asd2479745295/article/details/85055902

版权

1. 集成学习概念，
2. 个体学习器，
3. boosting ， bagging
4. 结合策略(平均法，投票法，学习法)
5. 随机森林思想
6. 随机森林的推广
7. 优缺点
8. sklearn参数

1.集成学习概念

最开始接触集成学习是在参加达观的比赛中，那时候看大佬们最后都选择进行模型融合，综合不同模型的结果进行分数的提升，而菜鸡如我就只能跑个单模型调调参，只能在一百名徘徊。集成学习对模型结果的提升是非常明显的，可以说是比赛利器，实际上就是组合多种分类器，达到我们常说的“三个臭皮匠顶上一个诸葛亮”的效果。个人认为模型融合和集成学习是一致的，但是看有些大佬对集成学习进行了分类，将弱分类器融合的方法叫做机器学习元算法，可以认为是臭皮匠和诸葛亮的关系。另一种是强分类器强强联合进行提升，就可能是三个诸葛亮无敌的故事了。

定义：

使用一系列学习器进行学习，并使用某种规则（模型融合方法）把各个学习结果进行整合，从而获得比单个学习器更好的学习效果的一种机器学习方法。

理论基础：

集成学习的理论基础来自于Kearns和Valiant提出的基于PAC（probably approximately correct）的可学习性理论，PAC 定义了学习算法的强弱：

弱学习算法：识别错误率小于1/2(即准确率仅比随机猜测略高的算法)
强学习算法：识别准确率很高并能在多项式时间内完成的算法
原则：

当然这是个人认为的原则，就像周志华老师在西瓜书里面说的“好而不同”，好指的是个体学习器的性能要好，不同指的是个体模型的类别不同。就是说差异性越大的模型，融合的结果可能越好。

2.个体分类器

个体分类器就是说用来融合的单个分类器，从种类上来说可以分为两种，就是所有的分类器都是同种类的以及所有的分类器不是同一种类的，而前者是目前应用最广泛的，主要是CART和神经网络。同种类的个体分类器根据强弱依赖关系又可以分为两类，强依赖性，个体分类器串行生成，代表算法是Boosting系列。弱依赖性，个体分类器可以并行生成，代表算法是Bagging系列算法。

3.集成学习方法：bagging,boosting,stacking

集成学习的框架有三种，分别是bagging、boosting和stacking

3.1 bagging

bagging有好多叫法，什么套袋法、装袋法，我最喜欢的还是自举汇聚法，因为听起来就很高大上。核心在于汇聚，也就是说分类器是并行的，很像我们了解的民主选举、投票系统啥啥的。其算法过程如下：

A）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（同一个样本可能被多次抽到）

B）每次使用一个训练集得到一个模型，k个训练集共得到k个模型。

C）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题：计算上述模型的均值作为最后的结果。需要注意的是模型的权值是等重的。

如果集成运算的基本单元是决策树，那么就构成了今天要说的随机森林，在一些推荐系统大赛、天池还有kaggle比赛中，具有极高的出场率，因为在准确率上有相当大的优势。注意关键词“随机”和“森林”，随机指的是分

最低0.47元/天解锁文章

皮的开心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习之路（八）随机森林

1. 集成学习概念，2. 个体学习器，3. boosting ， bagging4. 结合策略(平均法，投票法，学习法)5. 随机森林思想6. 随机森林的推广7. 优缺点8. sklearn参数1.集成学习概念最开始接触集成学习是在参加达观的比赛中，那时候看大佬们最后都选择进行模型融合，综合不同模型的结果进行分数的提升，而菜鸡如我就只能跑个单模型调调参，只能在一百...
复制链接

扫一扫