随机森林算法梳理

最新推荐文章于 2022-08-09 22:44:18 发布

小胖头

最新推荐文章于 2022-08-09 22:44:18 发布

阅读量246

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/fat_cai_niao/article/details/89035218

版权

1.集成学习概念

对于训练集数据，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。
所以，对于集成学习有两个重要的方面：

如何得到个体学习器
选择一种结合策略集合成一个强学习器

2.个体学习器概念

简单的说个体学习就是对于训练集，仅仅通过一个训练算法得到的一个学习模型，就可以称为个体学习器

3.boosting&bagging

3.1boosting

boosting的过程和原理可以通过下述图片展示：
在这里插入图片描述
从图中可以看出，Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。Boosting系列算法里最著名算法主要有AdaBoost算法和提升树(boosting tree)系列算法。提升树系列算法里面应用最广泛的是梯度提升树(Gradient Boosting Tree)。

3.2 bagging

同样，先通过一张图片来认识：
在这里插入图片描述
从上图可以看出，bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机采样，我们就可以得到T个采样集，对于这T个采样集，我们可以分别独立的训练出T个弱学习器，再对这T个弱学习器通过集合策略来得到最终的强学习器。

对于这里的随机采样有必要做进一步的介绍，这里一般采用的是自助采样法（Bootstrap sampling）,即对于m个样本的原始训练集，我们每次先随机采集一个样本放入采样集，接着把该样本放回，也就是说下次采样时该样本仍有可能被采集到，这样采集m次，最终可以得到m个样本的采样集，由于是随机采样，这样每次的采样集是和原始训练集不同的，和其他采样集也是不同的，这样得到多个不同的弱学习器。

从这里我们要引入我们今天的重点，随机森林。随机森林其实就是bagging的一个特殊的版本，因为随机森林的弱学习器都是决策树。

最低0.47元/天解锁文章

小胖头

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
随机森林算法梳理

1.集成学习概念对于训练集数据，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的。所以，对于集成学习有两个重要的方面：如何得到个体学习器选择一种结合策略集合成一个强学习器2.个体学习器概念简单的说个体学习就是对于训练集，仅仅通过一个训练算法得到的一个学习模型，就可以称为个体学习器3.boosting&bagging3.1...
复制链接

扫一扫