集成学习----“三个臭皮匠，赛过诸葛亮”

最新推荐文章于 2023-04-20 07:06:05 发布

云水谣CS

最新推荐文章于 2023-04-20 07:06:05 发布

阅读量536

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/leetcodecl/article/details/82624645

版权

Machine Learning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

集成学习(Ensemble Learning)通过使用一些方法改变原始训练样本的分布，来构建多个不同的学习器，再结合这多个学习器来完成学习任务，常可获得比单一学习器显著优越的泛化性能。该过程中多个不同的分类器，叫做个体学习器或者基学习器。个体分类器之间要具备一定的差异性和准确性，即尽可能“好而不同”，个体分类器的准确度要大于0.5。集成学习的研究核心有二个内容：一者是如何构建具备一定差异性和准确率的基学习器，二者为如何整合多个不同的学习器，提升学习性能。

根据个体学习器的生成方式，当前集成学习方法大致可分为二类：1.个体学习器之间存在强依赖关系，必须串行生成的序列化方法，以Boosting为代表；2.个体学习器之间不存在依赖关系，可以同时生成的并行方法，以Bagging、随机森林（Random Forest）为代表。

在正式介绍上述二类方法之前，先回顾二方面内容：

1.偏差-方差

如图所示，蓝色点为样本的训练期望值，红色区域为样本的真实值。偏差（Bias）指的是样本期望值与真实值之间的误差，方差指的是随机变量在其期望值附近的波动程度。

2.Bootstrap采样法

Bootstrap是一种自助采样法，“有放回抽样”的经典样本估计算法。其假设观察样本即为数据总样本，再由假定总体抽取子样本，即再抽样。后续的Bagging、Boosting、随机森林等算法的样本抽样算法用的都是Bootstrap。

Boosting

Boosting是一种可把弱学习器提升为强学习器的算法。先从初始训练集训练出一个基学习器，再根据基学习器的表现改变原始训练样本的分布进行调整，使得先前学习器做错的训练样本在后续得到更高的关注，再进一步学习新的学习器。典型的算法是AdaBoost：对训练样本初始化相同的权重，训练一个基学习器，根据该学习器的表现，给予判断错误的样本更高的权重，改变训练样本的权重分布，在训练新的学习器；迭代进行上述步骤。

从偏差-方差的角度来看，Boosting主要关注降低偏差。每一次迭代都是在上一轮的基础上拟合训练样本，因此偏差逐渐降低。那么对于基分类器来说，目标是降低方差，故而常选择更简单的深度很浅的决策树；若基学习器过于复杂，则方差较大，容易产生过拟合，因此，Boosting的基本模型必须是“弱模型”，具备“高偏差低方差”的特点。

Bagging

给定包含m个样本的数据集，随机取出一个样本放入采样集中，再放回数据集。经过m次随机采样操作，得到包含m个样本的采样集。初始采样集中，可能存在样本多次出现。采样出T个包含m个训练样本的采样集，分别训练基学习器，再将T个基学习器进行整合，这就是Bagging算法。T个基学习器间相互独立，可以并行生成，性能较为平均，方差小，因此基分类器的目标是降低偏差，常采用较深而且不剪枝的决策树、神经网络。从偏差-方差的角度来看，Bagging主要关注降低方差。与Boosting相比，Boosting的拟合效果更好（偏差更小）；Bagging的方差更小，更不易发生过拟合。Bagging的基本模型必须是“强模型”，具备“高方差低偏差”的特点。

随机森林

随机森林是在Bagging的基础上改进的，不仅是用了数据样本扰动，还使用了属性扰动的多样性增强机制，大大减少了产生过拟合的可能性，因此不需要剪枝。传统决策树在划分属性时，在当前节点的属性集合中选择一个最优属性；而在RF中，先从当前节点的属性集合中随机选择k个属性，再计算一个最优属性用于划分。

基分类器整合策略

1.投票法：多用于分类任务

2.平均法：多用于回归任务

3.学习法：如Stacking算法：使用交叉验证法，将原始训练样本划分为不相交的k个子集；每个子集按照7：3的比例分为训练集和测试集，利用训练集生成初级学习器；使用测试集对初级学习器进行测试，得到的预测结果作为次级学习器的输入，将正确输出作为输出，训练一个更高层的学习器。

云水谣CS

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
集成学习----“三个臭皮匠，赛过诸葛亮”

集成学习(Ensemble Learning)通过使用一些方法改变原始训练样本的分布，来构建多个不同的学习器，再结合这多个学习器来完成学习任务，常可获得比单一学习器显著优越的泛化性能。该过程中多个不同的分类器，叫做个体学习器或者基学习器。个体分类器之间要具备一定的差异性和准确性，即尽可能“好而不同”，个体分类器的准确度要大于0.5。集成学习的研究核心有二个内容：一者是如何构建具备一定差异性和准确率...
复制链接

扫一扫

专栏目录