随机森林（Bagging）和Adaboost---集成学习

最新推荐文章于 2024-06-02 21:03:56 发布

heikee_g

最新推荐文章于 2024-06-02 21:03:56 发布

阅读量1.6k

点赞数 30

文章标签：随机森林算法机器学习集成学习 boosting 人工智能

本文链接：https://blog.csdn.net/heikegrr/article/details/138837141

版权

Bagging

在这里插入图片描述

经过 bagging 得到的结果方差（variance）更小

从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）。
每次使用一个训练集得到一个模型，k个训练集共得到k个模型。（注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）。
对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）。

bagging + 决策树 = 随机森林

在这里插入图片描述

一个样本容量为N的样本，有放回的抽取N次，每次抽取1个，最终形成了N个样本。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。
当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。
决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
按照步骤1~3建立大量的决策树，这样就构成了随机森林了。

（起点高，天花板低）

在这里插入图片描述

在这里插入图片描述

经过 boosting 得到的结果偏差（bias）更小

在这里插入图片描述

在这里插入图片描述

关注