集成学习
集成学习是一大类模型融合策略和方法的统称。
集成学习的种类
集成学习分哪几种?它们有何异同?
速记:Boosting(串行);Bagging(并行)
详细:
Boosting
Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。
它的基本思路为:将及分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据每层分类器的结果的加权的稻草最终结果。
Basgging
Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。
Boosting和Bagging的差异
基分类器的错误是偏差和方差两种差误之和。偏差主要是由于分类器的表达能力有限导致的系统性错误,表现在训练误差不收敛。方差是由于分类器对于样本分布过于敏感导致在训练样本数较少时,产生过拟合。
Boosting方法时通过逐步聚焦于基分类器分错的样本,减小集成分类器的偏差。Bagging 方法则是采取分而治之的策略,通过对训练样本多次采样,并分别训练除多个不同模型,然后作综合,来减小集成分类器的方差。
集成学习的步骤和例子
集成学习有哪些基本步骤?请举几个集成学习的例子
速记:集成学习一般可分为以下三个步骤:找到误差相互独立了的基分类器;训练基分类器;合并基分类器的结果。
详细:合并基分类器的方法有voting和stacking两种,前者时用投票的方式,将或偶的最多票数的结果中作为最终的结果。后者是用串行的方式,把前一个基分类器的结果输出到下一个分类器,将所有基分类器 的输出结果相加作为最终输出。
以Adaboost(具体可以看这篇博文)为例,其基分类器的训练和合并的基本步骤如下。
-
确定基分类器:这列选用ID3.事实上,任何分类模型都可以作为基分类器。但树型模型由于结构简单且较易残生随机性所以比较常用。
-
训练基分类器:假设虚连接为,其中,并且有T的及分类器,则可以按照如下过程来训练基分类器。
-
初始化采样分布;
-
令t=1,2,..,T循环
-
从训练集中,按照分布,采样出子集;
-
用训练除基分类器;
-
计算的错误率:,其中I【】为判别函数。
-
计算基分类器权重;
-
设置下一次采样:
-
-
-
合并基分类器:给定一个未知样本z,输出分类结果为加权投票的结果
基分类器
常用的基分类器是什么
速记:决策树
详细:最常用的基分类器是决策树,原因如下:
-
决策树可以较为方便地将样本的权重整合到训练过程中,而不需要是使用过采样的方法来调整样本权重。
-
决策树的表达能力和泛化能力,可以通过调节树的层数来做折中。
-
数据样本的扰动对于决策树的影响较大,因此不同子样本集合生成第的决策树基分类器的随机性较大。
可否将随机森林中的基分类器,有决策树替换为线性分类器或K-近邻?为什么?
速记:不行。
详细:随机深林属于Bagging类的集成学习。Bagging的主要 好处是集成后的分类器的方差,比基分类器的方差小。Bagging所采用的基分类器,最好是本身对样本的分布较为敏感的(即所谓不稳定的分类器)。线性分类器或者K-近邻都是较为稳定的分类器,本身方差就不大。
偏差与方差
偏差:由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。
方差:由所有采样得到的大小为m的训练数据集训练出的所有模型输出的方差。
如何从减小方差和偏差的角度解释Boosting和Bagging的原理?
速记:Bagging能偶提高弱分类器性能的原因是降低了方差,Boosting能够提升弱分类器性能的原因是降低了偏差。
详细: