集成分类有两种集成学习方法:Boosting和Bagging。
Bagging(套袋法)是对多个弱分类器独立学习的方法;
Boosting(提升法)是对多个弱学习器依次进行学习的方法。
二者的区别我们通过下图来对比了解一下:
Bagging
Step1:假设训练集中数据个数为n,每次从训练集中有放回的随机抽取n个数据,并分别生成各自的分类器(弱分类器)。其中,随机抽取数据重新整理样本的过程叫做自助法(又名:Bootstrapping)。
Step2:将得到的弱学习器求平均值,得到强学习器。
Boosting
Step:将训练集中的数据分别生成学习器(多种方法),将初步得到的众多学习器分别匹配一个权值1/b(假设一共有b个学习器),由于训练集已知每个数据的标签,故将分类效果较好的权值进行减小,将分类效果较差的权值进行增大,这样对于原来没有正确分类的样本有了改进,经过多次迭代后,几乎所有的样本都能正确分类了,通过将预测函数加权(另一个权值)求和生成高性能学习器(强学习器)。
注:Boosting中权值涉及到两类,一个是样本的权值,一个是预测函数的权值。
Adaboost:
Boosting中用来进行样本加权的方法即为Adaboost,全称Adaptive Boosting(自适应加强)。
该方法的主要内容为:误差率越小,权重就越小;误差率越大,权重就越大。
集成分类的过程及结果如图示:
主要区别:
1、样本选择
Bagging采用的是Bootstrap随机有放回抽样;而Boosting每一轮的训练集是不变的,改变的只是每一个样本的权重。
2、样本权重
Bagging使用的是均匀取样,每个样本权重相等;Boosting根据错误率调整样本权重,错误率越大的样本权重越大。
3、预测函数
Bagging所有的预测函数的权重相等;Boosting中误差越小的预测函数其权重越大。
4、并行计算
Bagging各个预测函数可以并行生成;Boosting各个预测函数必须按顺序迭代生成。
TWO弱分类器01 剪枝分类器与决策树分类器剪枝分类器是弱分类器的一种,将输入进去n维数据任选其中一维,与之前设定好的阈值进行比较,从而进行分类。
将剪枝分类器进行一层层积累,就得到决策树分类器。
02 弱分类器与集成学习方法结合下面是将决策树与这些算法框架进行结合所得到的新的算法:
1)Bagging + 决策树 = 随机森林
2)AdaBoost + 决策树 = 提升树
3)Gradient Boosting + 决策树 = GBDT
03 随机森林(RF)下面部分着重讲一下随机森林,这也在师兄所讲论文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作为预测的最后一个环节。
决策树分类器(弱分类器)+Bagging(集成学习方法)=随机森林
在将得到的多组抽取到的n个数据分别生成弱分类器的时候,应用决策树分类器。应用处在以下加粗部分:
Bagging:
Step1:假设训练集中数据个数为n,每次从训练集中有放回的随机抽取n个数据,并分别生成各自的分类器(弱分类器)。
Step2:将得到的弱学习器求平均值,得到强学习器。
在刚才提到的太阳能辐射预测值相关那篇论文中,首先将时间序列分为训练集和测试集,将训练集用过MEMD进行分解,提取特征值,再通过SVD奇异值分解进行降维,进而保留最相关特征,最后一步通过随机森林将最相关特征输入,建立强学习器(预测模型)。
上面提到的涉及RF的这篇论文近几天将完成精讲的编写。
如有错误请多多指正。