集成学习简介

一、预备知识

弱学习器:

弱学习器指泛化性能略优于随机猜测的学习器,例如在二分类问题上精度略高于50%的分类器。

集成问题的提出(why):

弱学习器是否能够等价于强学习器问题的提出? 解决方案: 将多个弱学习器进行集成能达到更高的精确度。(类似于三个臭皮匠顶个诸葛亮)

二、个体与集成

2.1集成学习(ensemble learning)定义:

通过构建并合并多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会(committee-based learning)等。

2.2集成学习的一般结构:

先产生一组“个体学习器”,再用某种策略将他们结合起来。个体学习器通常由现有的学习算法从训练数据产生。

2.3集成的分类:

同质(homogeneous)集成:集成中包含同一类型的个体学习器,例如:决策树集成中全是决策树。
基学习器(基学习算法):同质集成中的个体学习器。集成学习很多针对弱学习器,因此,基学习器有时被直 接成为弱学习器。
异质(heterogeneous)集成:集成中包含不同类型的个体学习器,例如:同时包含决策树和神经网络。
组件学习器:异质集成中的个体学习器。也直接称为个体学习器

2.4集成学习的优势

常可获得比单一学习器更显著的泛化性能。要获得好的集成,个体学习器应该“好而不同”,即准确性高、个体学习器之间的差异较大(三个臭皮匠如果完全相同,没有互补性,还是臭皮匠*3, 达不到质变)

2.5集成中个体学习器的生成方式(集成学习的方法)

序列化方法(Sequential methods): Boosting:AdaBoost、Arc-X4、LPBoost (新个体生成基于旧的个体,个体学习器间存在强依赖关系)
并行化方法(Parallel methods): Bagging、RandomSubspace、Random Forest (所有个体同时进行)

2.6 并行集成方法-Bagging(bootstrap aggregating,自举汇聚法)

2.6.1 适用范围:强学习器

适用于bais很小,但variance较大的模型,即模型复杂度较高,容易发生过拟合。Bagging之后,可以降低variance。

2.6.2 流程:

从原始数据集中,自助采样得出T个含m个训练集样本的采样集,基于每个采样集训练出一个基学习器(相同的学习器),再将这些基学习器进行结合。结合时,对分类任务使用简单投票法(若两个类票数相同则随机选择一个,也可以进一步考察学习器投票的置信度来确定),对回归任务使用简单平均法。

下图是Bagging的流程图:原始数据集中包含N个给定样本,通过自助采样法,得到4个训练数据集,注意:训练数据集的大小和原始样本集大小相同,并且训练样本集中可能有重复样本出现。针对这4个训练样本集分别进行训练得出4个学习器。Bagging的采样及个体学习器的生成
将测试集分别放入4个学习器,将得出的结果进行结合,结合方法有平均法和简单投票法。基于每个学习器进行测试,并将测试结果结合

2.6.3 评价

2.6.4 Bagging的优势

1)与Adaboost只适合用于二分类任务相比,Bagging能不经修改地用于多分类、回归等任务。
2)OOB(out-of-bag)estimate,包外估计: 由于每个基学习器只使用了初始化训练集中约63.2%(详情见西瓜书2.2.3自助采样法),剩下约36.8%的样本可用作验证集来对泛化性能进行包外估计。
例如:f1基于x3和x4训练得出,f2基于x3和x4训练得,f3基于x2和x4训练得出,f4基于x1和x3训练得出,则RF = f2+f4的bagging结果用x1进行检测等
OOB
本文在听取李宏毅的机器学习课程及看完西瓜书后完成,有关Boosting的方法将在之后的博客中给出
西瓜书-周志华
李宏毅机器学习ppt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值