机器学习之集成学习

集成学习通过结合多个学习器以提高预测性能,包括Bagging(降低方差)、Boosting(降低偏差)和Stacking。Bagging通过随机采样创建子集训练基学习器,Boosting通过调整样本权重训练弱学习器,Stacking则利用其他学习器的预测结果作为新特征来训练更高层次的模型。这些方法旨在增强模型的稳定性和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、集成学习

        集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法,而更像是一种优化策略。

        集成学习的一般结构是,先产生一组个体学习器,再用某种结合策略将它们结合起来。

         

 

         

 

        集成学习优势在于:

        1)个体学习器之间存在一定的差异性,这会导致分类边界不同,也就是说可能存在错误。那么将多个个体学习器合并后,就可以得到更加合理的边界,减少整体的错误率,实现更好的效果;

        2)对于数据集过大或过小的情况,可以分别进行划分和有放回的操作,产生不同的数据子集,然后使用数据子集训练不同的学习器,最终再合并成为一个强学习器;

        3)如果数据的划分边界过于复杂,使用线性模型很难描述情况,那么可以训练多个模型,然后再进行模型的融合;

        4)对于多个异构的特征集的时候,很难直接融合,那么可以考虑使用每个数据集构建一个分类模型,然后将多个模型融合。

 

        个体学习器分类

            同质:所有个体学习器都是一个种类的——基学习器

            异质:所有个体学习器不全是一个种类的——组件学习器

            基学习器有时也被称为弱学习器,指的是准确率略微好于随机猜测的学习器。

        

        集成算法的两个主要问题:如何选择若干个体学习器,以及选择何种策略将这些个体学习器集成为一个强学习器。

        集成算法的成功在于保证个体学习器的多样性(好而不同),且集成不稳定的算法也能够得到一个比较明显的性能提升。

        常见的集成学习有:

            用于减少方差的Bagging

            用于减少偏差的Boosting

            用于提升预测结果的Stacking

 

二、Bagging

        Bagging自举汇聚法(Bootstrap Agg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值