集成学习学习笔记——Bagging（5）

最新推荐文章于 2023-01-24 12:27:16 发布

Baker_Young

最新推荐文章于 2023-01-24 12:27:16 发布

阅读量217

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54440493/article/details/119026904

版权

一、投票法

【Def】属于集成学习的一种，可帮助提升模型的泛化能力，减少模型的错误率。

【Compute】对回归模型：投票法可以是多个模型的预测值的平均值、众数或者中位数

对分类模型：硬投票法——多个模型预测值中，出现次数最多的类别

软投票法——对各类预测结果的概率求和，选取概率之和最大的类别

【原理】

1.少数服从多数，通过多模型集成降低泛化误差中的方差项，提升模型的鲁棒性。理想情况下，投票法的预测能力>任何一个基模型

2.由于软投票和硬投票的预测区别，得到的结果也可能不同，一般软投票考虑了预测概率，会得到比硬投票更加准确的预测结果

3.不同基模型的影响：

1）基模型之间在效果（泛化能力）上不能差别过大。当某个基模型相对于其他基模型效果过差时，该模型很可能成为噪声

2）基模型之间应该有较小的同质性（最好是具有独立的预测结果）。例如在基模型预测效果近似的情况下，基于树模型+线性模型的投票，会比两个树模型或者两个线性模型的效果好。

当基模型可以直接预测类别label时，适合用硬投票；当基模型能预测类别概率时，则适合用软投票（或者是输出预测分数值——SVM的decision function，KNN，Decision Tree）

【局限性】

投票法对所有模型赋予相同的权重，每个模型贡献相同。容易出现噪声

二、Bagging

【与投票法的区别】不仅仅集成了基模型的预测结果，同时采用一定的策略来影响基模型的训练，保证基模型服从一定假设。就如上一部分中提到的，希望各个模型间有较大差异，而实际中模型往往同质，因此一个思路是从采样入手

【原理】

Bagging的核心在于Bootstrap法（多次有放回取样），即假定既有数据集T有N个样本，我们做M次有放回取样n个样本，对这M个dataset作为training set训练得到M个模型，并对M个模型做结合（投票法）

预测：回归模型——平均值；分类模型——多数表决。

模型有效性：基学习器类似，泛化能力接近，噪声较小；同时训练集略有不同，使得基学习器同质性较小，存在略微差异，又会具有略微不同的训练能力

Bagging法同时原理也是通过降低泛化误差中的方差项来提升泛化能力（虽然重采样一定程度上有偏，但导致的偏差上升被方差减小所覆盖）。同时对高维数据来说，列抽样也是一个提升泛化能力的做法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习学习笔记——Bagging（5）

一、投票法【Def】属于集成学习的一种，可帮助提升模型的泛化能力，减少模型的错误率。【Compute】对回归模型：投票法可以是多个模型的预测值的平均值、众数或者中位数对分类模型：硬投票法——多个模型预测值中，出现次数最多的类别软投票法——对各类预测结果的概率求和，选取概率之和最大的类别【原理】 1.少数服从多数，通过多模型集成降低泛化误差中...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。