集成方法，或者叫做组合方法（Ensemble methods）介绍（一）

最新推荐文章于 2025-03-29 16:28:26 发布

guoyunfei20

最新推荐文章于 2025-03-29 16:28:26 发布

阅读量4.9k

点赞数

分类专栏：组合方法（emsemble method）

组合方法（emsemble method）专栏收录该内容

2 篇文章

订阅专栏

本文介绍了集成方法的基本思想，包括两大类方法：平均方法和提升算法。通过组合多个分类器或算法参数来提高整体效果，避免过拟合。并列举了如随机森林、AdaBoost等经典算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

集成方法的思想就是将若干个分类器组合起来（或者把一种算法的不同参数组合到一起），以改进各单个分类器的效果。集成方法大致分两类：

1. Averaging methods（平均方法）：

就是利用训练数据的全集或者一部分数据训练出几个算法或者一个算法的几个参数，最终的算法是所有这些算法的算术平均。比如Bagging Methods（装袋算法），Forest of Randomized Trees（随机森林）等。实际上这个比较简单，主要的工作在于训练数据的选择，比如是不是随机抽样，是不是有放回，选取多少的数据集，选取多少数训练数据。后续的训练就是对各个算法的分别训练，然后进行综合平均。这种方法的基础算法一般会选择很强很复杂的算法，然后对其进行平均，因为单一的强算法很容易就导致过拟合（overfit现象），而经过aggregate之后就消除了这种问题。

2. boosting methods（提升算法）：

就是利用一个基础算法进行预测，然后在后续的其他算法中利用前面算法的结果，重点处理错误数据，从而不断的减少错误率。其动机是使用几种简单的弱算法来达到很强大的组合算法。所谓提升就是把“弱学习算法”提升(boost)为“强学习算法，是一个逐步提升逐步学习的过程；某种程度上说，和neural network有些相似性。经典算法比如AdaBoost（Adaptive Boost，自适应提升），Gradient Tree Boosting（GBDT）。这种方法一般会选择非常简单的弱算法作为基础算法，因为会逐步的提升，所以最终的几个会非常强。

scikit-learn提供了Ensemble methods的介绍和Python使用，见：

http://scikit-learn.org/stable/modules/ensemble.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。