bagging算法_【算法精讲】集成分类与随机森林

ONE集成分类01 什么是集成分类 集成分类是集成学习的一种,先讲下集成学习是什么。 所谓集成学习,引用一句谚语“三个臭皮匠顶个诸葛亮”最恰当不过。 集成学习就是将多个弱学习器进行组合,最终形成高性能分类器(强学习器)的方法。 将集成学习放在数据分类中,即叫集成分类。02 集成分类的方法

集成分类有两种集成学习方法:BoostingBagging

Bagging(套袋法)是对多个弱分类器独立学习的方法;

Boosting(提升法)是对多个弱学习器依次进行学习的方法。

二者的区别我们通过下图来对比了解一下:

1d48405d82bf2ec5058b07a7acfb70a0.png

Bagging

Step1:假设训练集中数据个数为n,每次从训练集中有放回的随机抽取n个数据,并分别生成各自的分类器(弱分类器)。其中,随机抽取数据重新整理样本的过程叫做自助法(又名:Bootstrapping)。

Step2:将得到的弱学习器求平均值,得到强学习器。

Boosting

Step:将训练集中的数据分别生成学习器(多种方法),将初步得到的众多学习器分别匹配一个权值1/b(假设一共有b个学习器),由于训练集已知每个数据的标签,故将分类效果较好的权值进行减小,将分类效果较差的权值进行增大,这样对于原来没有正确分类的样本有了改进,经过多次迭代后,几乎所有的样本都能正确分类了,通过将预测函数加权(另一个权值)求和生成高性能学习器(强学习器)。

注:Boosting中权值涉及到两类,一个是样本的权值,一个是预测函数的权值。

Adaboost:

Boosting中用来进行样本加权的方法即为Adaboost,全称Adaptive Boosting(自适应加强)。

该方法的主要内容为:误差率越小,权重就越小;误差率越大,权重就越大。

集成分类的过程及结果如图示:

857c1e655aecea34dcdce002435ebd62.png

主要区别:

1、样本选择

Bagging采用的是Bootstrap随机有放回抽样;而Boosting每一轮的训练集是不变的,改变的只是每一个样本的权重。

2、样本权重

Bagging使用的是均匀取样,每个样本权重相等;Boosting根据错误率调整样本权重,错误率越大的样本权重越大。

3、预测函数

Bagging所有的预测函数的权重相等;Boosting中误差越小的预测函数其权重越大。

4、并行计算

Bagging各个预测函数可以并行生成;Boosting各个预测函数必须按顺序迭代生成。

TWO弱分类器01 剪枝分类器与决策树分类器

剪枝分类器是弱分类器的一种,将输入进去n维数据任选其中一维,与之前设定好的阈值进行比较,从而进行分类。

将剪枝分类器进行一层层积累,就得到决策树分类器。

02 弱分类器与集成学习方法结合

下面是将决策树与这些算法框架进行结合所得到的新的算法:

1)Bagging + 决策树 = 随机森林

2)AdaBoost + 决策树 = 提升树

3)Gradient Boosting + 决策树 = GBDT

03 随机森林(RF)

下面部分着重讲一下随机森林,这也在师兄所讲论文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作为预测的最后一个环节。

决策树分类器(弱分类器)+Bagging(集成学习方法)=随机森林

在将得到的多组抽取到的n个数据分别生成弱分类器的时候,应用决策树分类器。应用处在以下加粗部分:

Bagging:

Step1:假设训练集中数据个数为n,每次从训练集中有放回的随机抽取n个数据,并分别生成各自的分类器(弱分类器)。

Step2:将得到的弱学习器求平均值,得到强学习器。

在刚才提到的太阳能辐射预测值相关那篇论文中,首先将时间序列分为训练集和测试集,将训练集用过MEMD进行分解,提取特征值,再通过SVD奇异值分解进行降维,进而保留最相关特征,最后一步通过随机森林将最相关特征输入,建立强学习器(预测模型)。

上面提到的涉及RF的这篇论文近几天将完成精讲的编写。

如有错误请多多指正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值