机器学习之集成学习

POWERFULU

于 2020-12-15 08:29:10 发布

阅读量2.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38663663/article/details/111190295

版权

集成学习通过结合多个学习器以提高预测性能，包括Bagging（降低方差）、Boosting（降低偏差）和Stacking。Bagging通过随机采样创建子集训练基学习器，Boosting通过调整样本权重训练弱学习器，Stacking则利用其他学习器的预测结果作为新特征来训练更高层次的模型。这些方法旨在增强模型的稳定性和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、集成学习

集成学习（Ensemble learning）是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合，从而获得比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法，而更像是一种优化策略。

集成学习的一般结构是，先产生一组个体学习器，再用某种结合策略将它们结合起来。

集成学习优势在于：

1）个体学习器之间存在一定的差异性，这会导致分类边界不同，也就是说可能存在错误。那么将多个个体学习器合并后，就可以得到更加合理的边界，减少整体的错误率，实现更好的效果；

2）对于数据集过大或过小的情况，可以分别进行划分和有放回的操作，产生不同的数据子集，然后使用数据子集训练不同的学习器，最终再合并成为一个强学习器；

3）如果数据的划分边界过于复杂，使用线性模型很难描述情况，那么可以训练多个模型，然后再进行模型的融合；

4）对于多个异构的特征集的时候，很难直接融合，那么可以考虑使用每个数据集构建一个分类模型，然后将多个模型融合。

个体学习器分类

同质：所有个体学习器都是一个种类的——基学习器

异质：所有个体学习器不全是一个种类的——组件学习器

基学习器有时也被称为弱学习器，指的是准确率略微好于随机猜测的学习器。

集成算法的两个主要问题：如何选择若干个体学习器，以及选择何种策略将这些个体学习器集成为一个强学习器。

集成算法的成功在于保证个体学习器的多样性（好而不同），且集成不稳定的算法也能够得到一个比较明显的性能提升。

常见的集成学习有：

用于减少方差的Bagging

用于减少偏差的Boosting

用于提升预测结果的Stacking

二、Bagging

Bagging自举汇聚法（Bootstrap Agg

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。