数据挖掘终篇！一文学习模型融合！从加权融合到stacking, boosting

最新推荐文章于 2024-04-07 17:52:53 发布

Datawhale

最新推荐文章于 2024-04-07 17:52:53 发布

阅读量6.2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Datawhale/article/details/105355270

版权

本文介绍了数据挖掘中的模型融合技术，包括平均法、投票法、堆叠法（Stacking）、混合法（Blending）、Bagging和Boosting。模型融合能通过组合多个模型提升机器学习性能，常用于比赛冲刺阶段。文章详细讲解了各种方法的原理和应用场景，如加权平均法、投票法中的硬投票和软投票、Stacking的构建过程以及Blending与Stacking的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Datawhale

作者：田杨军，Datawhale优秀学习者

摘要：对于数据挖掘项目，本文将学习如何进行模型融合？常见的模型融合的方法有哪些？针对不同的问题类型，应该选择哪种方法呢？

模型融合：通过融合多个不同的模型，可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用，也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果，模型自身，样本集等不同的角度进行融合。

数据及背景

https://tianchi.aliyun.com/competition/entrance/231784/information（阿里天池-零基础入门数据挖掘）

模型融合

如果你打算买一辆车，你会直接走进第一家4S店，然后在店员的推销下直接把车买了吗？大概率不会，你会先去网站，看看其他人的评价或者一些专业机构在各个维度上对各种车型的对比；也许还会取咨询朋友和同事的意见。最后，做出决策。

模型融合采用的是同样的思想，即多个模型的组合可以改善整体的表现。集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。

模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式：

1. 简单加权融合：

回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；
分类：投票（Voting）；
综合：排序融合(Rank averaging)，log融合。

2. stacking/blending:

构建多层模型，并利用预测结果再拟合预测。

3. boosting/bagging:

多树的提升方法，在xgboost，Adaboost,GBDT中已经用到。

平均法（Averaging）

基本思想：对于回归问题，一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值可以用排序的方法确定，举个例子，比如A、B、C三种基本模型，模型效果进行排名，假设排名分别是1，2，3，那么给这三个模型赋予的权值分别是3/6、2/6、1/6。

平均法或加权平均法看似简单，其实后面的高级算法也可以说是基于此而产生的，Bagging或者Boosting都是一种把许多弱分类器这样融合成强分类器的思想。

简单算术平均法：Averaging方法就多个模型预测的结果进行平均。这种方法既可以用于回归问题，也可以用于对分类问题的概率进行平均。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。