集成学习

集成学习,又称多分类器系统,顾名思义,就是将多个分类器组合成一个强分类器,而多个分类器可以从训练不同的样本中产生。

因此,有一种有放回的采样方法(Bootstrap Samples)来生成不同的训练样本。
在这里插入图片描述
使用这种采样方法时,当n趋近正无穷时,可推导出抽到的概率为2/3。

下图是集成学习的基本流程:

在这里插入图片描述

下面介绍两种集成学习的方式—Baggin和Boosting

以Bagging中Stacking方法为例,其类似于并联,通过堆叠第二层的方式来自动给各个分类器赋予权重。
在这里插入图片描述
Boosting类似于串联,通过前一个分类器的性能来生成第二个分类器。
在这里插入图片描述
将C1分错的数据交给C2训练
在这里插入图片描述
由C3训练C1和C2分类结果不一致的数据,最后决策由三者共同决策。Boosting的特点是,训练样本是加权的,会着重去训练难分的样本,而且可以使用弱分类器作为基础分类器。

AdaBoost

AdaBoost是Boosting方法中的一种,特点就在于样本权重可以直接推导出来,而且训练误差上界可以越来越小,趋近于0。
在这里插入图片描述

算法过程

在这里插入图片描述

求取权重过程

左边为T+1时刻第i个样本的权重(刚开始各样本权重相同,后来不断调整),y为实际值,hT(x)为对应T时刻的预测结果,当预测和实际不一致时,该样本的训练权重就会增加。Z为权重和,除以Z来保证所有权重和为1。
在这里插入图片描述
模型误差上界推导:

【H(xi) != yi】的意思是对应事件是否成立,值为1或0。求和之后便是错分的数量,除以m便是错误率。
在这里插入图片描述
以此结合前面的式子可得:
在这里插入图片描述
由于是串联性质,无法在宏观上求Z乘积的最小化,故每一次都最小化Z。

(该解法值得学习!!!)

在这里插入图片描述
通过换元求解模型误差上界。
在这里插入图片描述
在这里插入图片描述
故误差的上限为一堆0~1之间的数相乘,会越来越接近0。

AdaBoost特点:

由于最小化Z用的是贪心算法,容易造成局部最优。
不会容易陷入过拟合。
可解释性底。

RegionBoost

该方法与之前不一样是因为采取了动态权重,根据输入的训练样本不同来改变分类器的权重。
在这里插入图片描述
该方法思想是增加了一种分类器,用于区分 分的对和分的错的,用于计算不同样本在不同分类器下分类效果的可信度。

参考自清华大学数据挖掘课程~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值