提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
目录
前言
本文介绍的集成模型的主要算法,是对我们老师的ppt进行简要的总结。
一、集成模型概述
二、关联规则算法
1.Bagging
装袋技术 的核心是重抽样自举法
装袋技术包括三个阶段 :
1.建模阶段
第一步抽取自举样本: 对样本量为N的原始样本集S进行有放回的随机抽样,得到一个容量为N的随机样本S1
第二步:将自举样本S1视为训练样本,建立分类树或者回归树T1
第三步: 重复上述两个步骤M次,得到M个自举样本S1 , S2 , …,SM以及M个预测模型T1 , T2 , …,TM
2.模型评价阶段
一般利用袋外观测的预测误差来评价装袋技术所建立的组合模型的预测误差。 对于预测模型Ti,样本不在Si 内的观测称为袋外观测。
以分类问题为例: 若第i个观测在建模过程中有q次作为袋外观测,则对第i个观测进行预测时将有q个预测模型为其投票,以得票最高的类别作为其预测类别。最后计算误判观测个数占总样本的比例,即为基于袋外观测的预测误差。
3.预测阶段
(1)对于分类问题:采用M个预测模型投票和少数服从多数的原则,哪个类别得票数多,就预测为那个类别
(2)对于回归问题: 以M个预测给出的预测值的平均值作为最终预测值
2.推进技术Boosting
1.建模阶段
建模过程中, AdaBoost技术通过对加权样本的有放回随机抽样,获得训练样本集
第一次建模: 对样本量为N的原始样本集S进行有放回的随机抽样,得到一个容量为N的随机样本S1 此时S中每个观测样本权值相同,每个观测进入训练样本集S1的概率是相等的 利用S1建立模型T1 重新调整S中各个观测的权重,对于T1预测正确的观测赋予较小的权值,预测错误的观测权值不变。
含义就是说:第一次建模每个样本权重都为1/N,当进行分类之后,根据分类错误率会调整每个样本的权重。(假如第一次得到e分类误差为0.4)
根据底层公式使得被分错的样本会大于1/N,而正确的样本会小于1/N。然后根据
就可以得到第一个弱学习器的权重,f1(x)=W1(X)*G1(X)。
第二次建模:
根据权值对S进行有放回的随机抽样,得到一个容量为N的随机样本S2 利用S2建立模型T2 重新调整S中各个观测的权重,对于T2预测正确的观测赋予较小的权值,预测错误的观测权值不变 模型T2重点关注的是模型T1预测错误的样本。
同理:(第二次得到e分类误差就会降低,假如变成0.3),同时就会得到f2(x)=W1(x)G1(x) + W2(x)G2(x)
第三次建模: 根据权值对S进行有放回的随机抽样,得到一个容量为N的随机样本S3 利用S3建立分类树T3 重新调整S中各个观测的权重,对于T3预测正确的观测赋予较小的权值,预测错误的观测权值不变 模型T3重点关注的是模型T2预测错误的样本
同理:(第三次得到e分类误差就会降低,假如变成0.2),同时就会得到f2(x)=W1(x)G1(x) + W2(x)G2(x)+ W3(x)G3(x)
重复上述步骤M次,得到M个自举样本S1 , S2 , …,SM以及M个预测模型T1 , T2 , …,TM。
G(x) = sign[fm(x)] = sign[ W1(x)G1(x) + W2(x)G2(x)+ W3(x)G3(x)+.....+Wm(x)Gm(x)]。
就这样,分错样本权值增大,分对样本权值变小,而在下一轮迭代中,总是选取让误差率最低的阈值来设计基本分类器,所以误差率e不断降低。
2.预测阶段
对于分类问题:依照预测类别分别计算权值的总和。权值和最大的类别即为观测X的最终预测类别 对于回归问题: 以M个预测给出的预测值的平均值作为最终预测值