集成算法

最新推荐文章于 2024-01-10 01:47:44 发布

m0_56329018

最新推荐文章于 2024-01-10 01:47:44 发布

阅读量96

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/m0_56329018/article/details/133174887

版权

集成算法原理

集成算法：构建多个学习器，然后通过一定策略结合把它们来完成学习任务的，常常可以获得比单一学习显著优越的学习器。

集成算法一般分为三类：Bagging，Boosting，Stacking（我们可以把它简单地看成并行，串行和树型）

Bagging模型

Bagging的全称是bootstrap averaging，它把各个基模型的结果组织起来，具体实现也有很多种类型，以sklearn中提供的Bagging集成算法为例

1.BaggingClassifier/BaggingRegressor是从原始数据集抽选Ｓ次（抽取实例，抽取属性），得到S个新数据集（有的值可能重复，有的值可能不出现）。使用同一模型，训练得到S个分类器，预测时使用投票结果最多的分类。
2.RandomForestClassifier随机森林，它是对决策树的集成，用随机的方式建立一个决策树的森林。当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行判断，预测时使用投票结果最多的分类，也是少数服从多数的算法。
3.VotingClassifier，可选择多个不同的基模型，分别进行预测，以投票方式决定最终结果。

Bagging中各个基算法之间没有依赖，可以并行计算，它的结果参考了各种情况，实现的是在欠拟合和过拟合之间取折中。

Boosting模型

Boosting模型是一种前人栽树后人乘凉的算法它通过对weak learner中做错的训练样本多加关注并调整，然后生成下一个基学习器，不断迭代，直到学习器的数量达到预先设定的T个时停止，最终将这T个基学习器加权结合。经典Boosting方法有Adaboost、GDBT、Xgboost。

对弱分类器加强，通过加权来训练。（学习器之间强依赖关系）

Stacking模型

聚合多个分类或回归模型

Stacking就是通过模型对原数据拟合的堆叠进行建模，他首先通过基学习器学习原数据，然后这几个基学习器都会对原数据进行输出，然后将这几个模型的输出按照列的方式进行堆叠，构成了 ( m , p ) (m,p)(m,p) 维的新数据，m代表样本数，p代表基学习器的个数，然后将新的样本数据交给第二层模型进行拟合。

注意，它不是把模型的结果组织起来，而把模型组织起来。理论上，Stacking可以组织任何模型，实际中常使用单层logistic回归作为模型。Sklearn中也实现了stacking模型：StackingClassifier。

m0_56329018

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成算法

Stacking就是通过模型对原数据拟合的堆叠进行建模，他首先通过基学习器学习原数据，然后这几个基学习器都会对原数据进行输出，然后将这几个模型的输出按照列的方式进行堆叠，构成了 ( m , p ) (m,p)(m,p) 维的新数据，m代表样本数，p代表基学习器的个数，然后将新的样本数据交给第二层模型进行拟合。当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行判断，预测时使用投票结果最多的分类，也是少数服从多数的算法。注意，它不是把模型的结果组织起来，而把模型组织起来。聚合多个分类或回归模型。
复制链接

扫一扫