集成学习

最新推荐文章于 2025-03-20 11:54:13 发布

八千鸟羽

最新推荐文章于 2025-03-20 11:54:13 发布

阅读量992

点赞数

分类专栏：小白的机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21567935/article/details/91354136

版权

小白的机器学习专栏收录该内容

19 篇文章

订阅专栏

集成学习，又称多分类器系统，顾名思义，就是将多个分类器组合成一个强分类器，而多个分类器可以从训练不同的样本中产生。

因此，有一种有放回的采样方法（Bootstrap Samples）来生成不同的训练样本。
在这里插入图片描述
使用这种采样方法时，当n趋近正无穷时，可推导出抽到的概率为2/3。

下图是集成学习的基本流程：

在这里插入图片描述

下面介绍两种集成学习的方式—Baggin和Boosting

以Bagging中Stacking方法为例，其类似于并联，通过堆叠第二层的方式来自动给各个分类器赋予权重。
在这里插入图片描述
Boosting类似于串联，通过前一个分类器的性能来生成第二个分类器。

将C1分错的数据交给C2训练

由C3训练C1和C2分类结果不一致的数据，最后决策由三者共同决策。Boosting的特点是，训练样本是加权的，会着重去训练难分的样本，而且可以使用弱分类器作为基础分类器。

AdaBoost

AdaBoost是Boosting方法中的一种，特点就在于样本权重可以直接推导出来，而且训练误差上界可以越来越小，趋近于0。
在这里插入图片描述

算法过程

在这里插入图片描述

求取权重过程

左边为T+1时刻第i个样本的权重（刚开始各样本权重相同，后来不断调整），y为实际值，hT(x)为对应T时刻的预测结果，当预测和实际不一致时，该样本的训练权重就会增加。Z为权重和，除以Z来保证所有权重和为1。
在这里插入图片描述
模型误差上界推导：

【H(xi) != yi】的意思是对应事件是否成立，值为1或0。求和之后便是错分的数量，除以m便是错误率。
在这里插入图片描述
以此结合前面的式子可得：

由于是串联性质，无法在宏观上求Z乘积的最小化，故每一次都最小化Z。

（该解法值得学习！！！）

在这里插入图片描述
通过换元求解模型误差上界。

故误差的上限为一堆0~1之间的数相乘，会越来越接近0。

AdaBoost特点：

由于最小化Z用的是贪心算法，容易造成局部最优。
不会容易陷入过拟合。
可解释性底。

RegionBoost

该方法与之前不一样是因为采取了动态权重，根据输入的训练样本不同来改变分类器的权重。
在这里插入图片描述
该方法思想是增加了一种分类器，用于区分分的对和分的错的，用于计算不同样本在不同分类器下分类效果的可信度。

参考自清华大学数据挖掘课程~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。