集成学习理解

最新推荐文章于 2024-07-24 18:14:54 发布

濒临秃头的少女

最新推荐文章于 2024-07-24 18:14:54 发布

阅读量133

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/selinaliujunlan/article/details/112569420

版权

集成学习

概念：先构建一组分类器/学习器，再将分类器/学习器的预测结果进行结合，通过各种方式做出最终的决策。
集合方法可分为两类：
（1）序列集成方法，其中参与训练的基础学习器按照顺序生成（例如 AdaBoost）。序列方法的原理是利用基础学习器之间的 依赖关系。通过对之前训练中错误标记的样本赋值较高的权重，可以提高整体的预测效果。
（2）并行集成方法，其中参与训练的基础学习器并行生成（例如 Random Forest）。并行方法的原理是利用基础学习器之间 不存在强依赖关系有独立性，通过平均可以显著降低错误[1]。

一、Boosting（AdaBoost减小偏差）

思想：从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；
关于AdaBoost算法：他是Boosting族算法中最著名的代表。刚开始训练时对每个训练例赋相同的权重，然后用该算法对训练集训练T轮，每次训练后，对训练失败的训练例赋更大的权重，也就是让学习算法在每次学习以后更注意学错的样本，从而得到多个预测函数/基分类器。通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型【1】。
在这里插入图片描述

二、bagging 与 random Forest

1.bagging（减小方差）

bootstraping:有放回采样
bagging：通过有放回的采样在有 $m$ 个样本的数据集中采 $m$ 次，得到有 $m$ 个样本的采样集，其中可能有重复的样本，通过这种方式我们可以构造 $T$ 个采样集，然后利用T个采样集产生 $T$ 个基学习器，再将这 $T$ 个基学习器结合，得到bagging。算法流程如下图：
在这里插入图片描述

2.随机森林RF

RF是Bagging的一个扩展变体。是将Bagging与决策树相结合，多个基学习器对应为多个决策树。
特点：样本选择 和 特征选择 都是随机选的。
样本选择随机是指每次都随机选择一个比例，以这个比例从全部样本中来抽取样本，假如有10个样本，生成一棵树时，随机选择比例为0.6，则通过有放回的方式抽取6个样本。
特征选择随机是指样本有多种特征，我们随机的选择特征来构建决策树。

三、结合策略

有三种： $\color{#FF3030}{平均法，投票法和学习法}$ 。

平均法

（1）简单平均法： $H(x)=\frac{1}{T}\sum_{i=1}^Th_i(x)$
（2）加权平均法： $H(x)=\sum_{i=1}^Tw_ih_i(x)$
权重 $w_i$ 为非负权重，且和为1。
基学习器差异大时，使用加权平均法;差异小时，使用简单平均法。

投票法

（1）绝对多数投票法
在这里插入图片描述
若某标记得票过半数，则预测为该标记；否则拒绝预测。
（2）相对多数投票法

预测为得票最多的标记，若同时有多个标记获最高票，则从中随机选取一个。
（3）加权投票法
在这里插入图片描述
加权取各基学习器的预测结果，得到最终的预测结果。
（4）软投票与硬投票
硬投票规则：少数服从多数

硬投票有时是不合理的，引入软投票：（软投票要求集合的每个模型都能估计概率)

举一些能够估计概率的模型(可用软投票)：
在这里插入图片描述

学习法（Stacking）

用另一个学习器来结合多个基学习器。这里我们把基学习器称作初级学习器，把用于结合的学习器称为次级学习器或元学习器。我们将训练样本分为两部分，一部分用来训练初级学习器，初级学习器的预测结果和另一部分训练样本一起训练次级学习器，由此得到最终结果。
由于参数很多，所以存在过拟合问题。sklearn里面没有这种函数。

四、参考文献

【1】机器学习-集成学习
【2】周志华《机器学习》

濒临秃头的少女

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习理解

集成学习概念：先构建一组分类器，再将分类器的预测结果以投票的方式进行决策。Boosting思想：从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；关于AdaBoost算法：他是Boosting族算法中最著名的代表...
复制链接

扫一扫