集成学习-Blending集成学习算法（task12.2021.05.10）

最新推荐文章于 2021-05-12 21:07:36 发布

langshao668

最新推荐文章于 2021-05-12 21:07:36 发布

阅读量155

点赞数

分类专栏：集成学习

本文链接：https://blog.csdn.net/langshao668/article/details/116607598

版权

集成学习-Blending集成学习算法（task12.2021.05.10）

文章目录

集成学习-Blending集成学习算法（task12.2021.05.10）
一、导言
二、Blending集成学习算法
- 1.故事
- 2.Blending集成学习方式
总结

一、导言

在前几个章节中，我们学习了关于回归和分类的算法，同时也讨论了如何将这些方法集成为强大的算法的集成学习方式，分别是Bagging和Boosting。本章我们继续讨论集成学习方法的最后一个成员–Stacking，这个集成方法在比赛中被称为“懒人”算法，因为它不需要花费过多时间的调参就可以得到一个效果不错的算法，同时，这种算法也比前两种算法容易理解的多，因为这种集成学习的方式不需要理解太多的理论，只需要在实际中加以运用即可。 stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。在介绍Stacking之前，我们先来对简化版的Stacking进行讨论，也叫做Blending，接着我们对Stacking进行更深入的讨论。

二、Blending集成学习算法

1.故事

老师上课提问到你，那时候你因为开小差而无法立刻得知问题的答案。就在你彷徨的时候，由于你平时人缘比较好，因此周围的同学向你伸出援手告诉了你他们脑中的正确答案，因此你对他们的答案加以总结和分析最终的得出正确答案。相信大家都有过这样的经历，说这个故事的目的是为了引出集成学习家族中的Blending方式，这种集成方式跟我们的故事是十分相像的。

2.Blending集成学习方式

(1) 将数据划分为训练集和测试集(test_set)，其中训练集需要再次划分为训练集(train_set)和验证集(val_set)；
(2) 创建第一层的多个模型，这些模型可以使同质的也可以是异质的；
(3) 使用train_set训练步骤2中的多个模型，然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1；
(4) 创建第二层的模型,使用val_predict作为训练集训练第二层的模型；
(5) 使用第二层训练好的模型对第二层测试集test_predict1进行预测，该结果为整个测试集的结果。
在这里插入图片描述
在这里，梳理下这个过程：
在(1)步中，总的数据集被分成训练集和测试集，如80%训练集和20%测试集，然后在这80%的训练集中再拆分训练集70%和验证集30%，因此拆分后的数据集由三部分组成：训练集80% 70% 、测试集20%、验证集80% 30% 。训练集是为了训练模型，测试集是为了调整模型(调参)，测试集则是为了检验模型的优度。
在(2)-(3)步中，我们使用训练集创建了K个模型，如SVM、random forests、XGBoost等，这个是第一层的模型。训练好模型后将验证集输入模型进行预测，得到K组不同的输出，我们记作 A1,…,AKA1,…,AK ，然后将测试集输入K个模型也得到K组输出，我们记作

最低0.47元/天解锁文章

langshao668

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
集成学习-Blending集成学习算法（task12.2021.05.10）

集成学习-Blending集成学习算法（task12.2021.05.10）文章目录集成学习-Blending集成学习算法（task12.2021.05.10）一、导言二、Blending集成学习算法1.故事2.Blending集成学习方式总结一、导言在前几个章节中，我们学习了关于回归和分类的算法，同时也讨论了如何将这些方法集成为强大的算法的集成学习方式，分别是Bagging和Boosting。本章我们继续讨论集成学习方法的最后一个成员–Stacking，这个集成方法在比赛中被称为“懒人”算法，因
复制链接

扫一扫