集成学习学习笔记——Bagging(5)

一、投票法

Def】属于集成学习的一种,可帮助提升模型的泛化能力,减少模型的错误率。

Compute】对回归模型:投票法可以是多个模型的预测值的平均值、众数或者中位数

                      对分类模型:硬投票法——多个模型预测值中,出现次数最多的类别

                                            软投票法——对各类预测结果的概率求和,选取概率之和最大的类别

原理

        1.少数服从多数,通过多模型集成降低泛化误差中的方差项,提升模型的鲁棒性。理想情况下,投票法的预测能力>任何一个基模型

        2.由于软投票和硬投票的预测区别,得到的结果也可能不同,一般软投票考虑了预测概率,会得到比硬投票更加准确的预测结果

        3.不同基模型的影响:

                1)基模型之间在效果(泛化能力)上不能差别过大。当某个基模型相对于其他基模型效果过差时,该模型很可能成为噪声

                2)基模型之间应该有较小的同质性(最好是具有独立的预测结果)。例如在基模型预测效果近似的情况下,基于树模型+线性模型的投票,会比两个树模型或者两个线性模型的效果好。

        

当基模型可以直接预测类别label时,适合用硬投票;当基模型能预测类别概率时,则适合用软投票(或者是输出预测分数值——SVM的decision function,KNN,Decision Tree)

局限性

投票法对所有模型赋予相同的权重,每个模型贡献相同。容易出现噪声

二、Bagging

与投票法的区别】不仅仅集成了基模型的预测结果,同时采用一定的策略来影响基模型的训练,保证基模型服从一定假设。就如上一部分中提到的,希望各个模型间有较大差异,而实际中模型往往同质,因此一个思路是从采样入手

原理

        Bagging的核心在于Bootstrap法(多次有放回取样),即假定既有数据集T有N个样本,我们做M次有放回取样n个样本,对这M个dataset作为training set训练得到M个模型,并对M个模型做结合(投票法)

        预测:回归模型——平均值;分类模型——多数表决。

        模型有效性:基学习器类似,泛化能力接近,噪声较小;同时训练集略有不同,使得基学习器同质性较小,存在略微差异,又会具有略微不同的训练能力

        Bagging法同时原理也是通过降低泛化误差中的方差项来提升泛化能力(虽然重采样一定程度上有偏,但导致的偏差上升被方差减小所覆盖)。同时对高维数据来说,列抽样也是一个提升泛化能力的做法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值