Stacking 模型融合详解（附python代码）

最新推荐文章于 2024-08-03 05:14:20 发布

datayx

最新推荐文章于 2024-08-03 05:14:20 发布

阅读量5.2k

点赞数 4

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号： datayx

集成学习

Ensemble learning 中文名叫做集成学习，它并不是一个单独的机器学习算法，而是将很多的机器学习算法结合在一起，我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中，个体学习器都相同，那么这些个体学习器可以叫做“基学习器”。

个体学习器组合在一起形成的集成学习，常常能够使得泛化性能提高，这对于“弱学习器”的提高尤为明显。弱学习器指的是比随机猜想要好一些的学习器。

在进行集成学习的时候，我们希望我们的基学习器应该是好而不同，这个思想在后面经常体现。 “好”就是说，你的基学习器不能太差，“不同”就是各个学习器尽量有差异。

集成学习有两个分类，一个是个体学习器存在强依赖关系、必须串行生成的序列化方法，以Boosting为代表。另外一种是个体学习器不存在强依赖关系、可同时生成的并行化方法，以Bagging和随机森林（Random Forest）为代表。

Stacking 的基本思想

将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，我们可以使用投票法来选择输出最多的类。对于回归问题，我们可以将分类器输出的结果求平均值。

上面说的投票法和平均法都是很有效的结合策略，还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起，这个方法就是Stacking。

在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器或元学习器（meta-learner），次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。

640?wx_fmt=png

过程1-3 是训练出来个体学习器，也就是初级学习器。

过程5-9是使用训练出来的个体学习器来得预测的结果，这个预测的结果当做次级学习器的训练集。

过程11 是用初级学习器预测的结果训练出次级学习器，得到我们最后训练的模型。

如果想要预测一个数据的输出，只需要把这条数据用初级学习器预测，然后将预测后的结果用次级学习器预测便可。

访问AI图谱技术分享社区

https://loveai.tech

Stacking的实现

最先想到的方法是这样的，

1：用数据集D来训练h₁,h₂,h₃...，

2：用这些训练出来的初级学习器在数据集D上面进行预测得到次级训练集。

3：用次级训练集来训练次级学习器。

但是这样的实现是有很大的缺陷的。在原始数据集D上面训练的模型，然后用这些模型再D上面再进行预测得到的次级训练集肯定是非常好的。会出现过拟合的现象。

Stacking是模型融合的一个重要的方法，几乎每个数据科学竞赛的前几名都会使用，接下来我主要是介绍stacking的原理。

相信大家看很多stacking的资料都会看到下面的这个图：

640?wx_fmt=jpeg

这个图很形象，他具体是这样做的，

640?wx_fmt=png

构造stacking类

事实上还可以构造一个stacking的类，它拥有fit和predict方法

640?wx_fmt=png

阅读过本文的人还看了以下：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

640?wx_fmt=jpeg

长按图片，识别二维码，点关注

访问AI图谱

https://loveai.tech

640?wx_fmt=png

640?wx_fmt=png

关注

4
点赞
踩
49

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

datayx CSDN认证博客专家 CSDN认证企业博客

码龄13年

55: 原创

2万+: 周排名

3231: 总排名

199万+: 访问

: 等级

1万+: 积分

1531: 粉丝

1182: 获赞

401: 评论

1万+: 收藏

私信

关注

热门文章

最新评论

yolo5纸张卡片顶点检测，实现任意倾斜角度较正
GMC324: 大佬求数据集
评论赠书 | 关于信息流推荐算法，来自大厂专家的全面总结
杀戮苍生: 非常喜欢这篇博客！博主的写作风格简洁明了，让人一目了然。文章内容丰富，涵盖了很多实用的知识点，对我来说非常有帮助。尤其是博主在文章中提供了很多实际操作的步骤和技巧，让我能够更好地应用所学的知识。同时，博主的配图也很精美，更加生动地展示了文章中的内容。总之，非常感谢博主的分享，期待博主能够继续输出这样优质的好文。
评论赠书 | 关于信息流推荐算法，来自大厂专家的全面总结
埋雷炸弹人: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文。优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
真实教育场景手写/表格/公式OCR数据集
柳折遥~: 请问数据集可以发给我吗，谢谢
IQA图像质量评价数据集介绍(LIVE、TID2013、CSIQ、LIVEC、KonIQ-10K)
哈哈哈MSE: 你好，你分享的链接全部过期了哦能再重新传一下吗

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。