集成模型-组合预测模型

睡觉前

已于 2023-06-28 10:37:26 修改

阅读量884

点赞数

分类专栏：数据挖掘相关知识点文章标签： r语言数学建模数据挖掘机器学习

于 2023-06-05 13:54:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cy14713147/article/details/131042506

版权

数据挖掘相关知识点专栏收录该内容

5 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

目录

一、集成模型概述

二、关联规则算法

2.模型评价阶段

2.推进技术Boosting

前言

本文介绍的集成模型的主要算法，是对我们老师的ppt进行简要的总结。

一、集成模型概述

二、关联规则算法

1.Bagging

装袋技术的核心是重抽样自举法

装袋技术包括三个阶段：

1.建模阶段

第一步抽取自举样本：对样本量为N的原始样本集S进行有放回的随机抽样，得到一个容量为N的随机样本S1

第二步：将自举样本S1视为训练样本，建立分类树或者回归树T1

第三步：重复上述两个步骤M次，得到M个自举样本S1 ， S2 ， …,SM以及M个预测模型T1 ， T2 ， …,TM

2.模型评价阶段

一般利用袋外观测的预测误差来评价装袋技术所建立的组合模型的预测误差。对于预测模型Ti,样本不在Si 内的观测称为袋外观测。

以分类问题为例：若第i个观测在建模过程中有q次作为袋外观测，则对第i个观测进行预测时将有q个预测模型为其投票，以得票最高的类别作为其预测类别。最后计算误判观测个数占总样本的比例，即为基于袋外观测的预测误差。

3.预测阶段

（1）对于分类问题：采用M个预测模型投票和少数服从多数的原则，哪个类别得票数多，就预测为那个类别

（2）对于回归问题：以M个预测给出的预测值的平均值作为最终预测值

2.推进技术Boosting

1.建模阶段

建模过程中， AdaBoost技术通过对加权样本的有放回随机抽样，获得训练样本集

第一次建模：对样本量为N的原始样本集S进行有放回的随机抽样，得到一个容量为N的随机样本S1 此时S中每个观测样本权值相同，每个观测进入训练样本集S1的概率是相等的利用S1建立模型T1 重新调整S中各个观测的权重，对于T1预测正确的观测赋予较小的权值，预测错误的观测权值不变。

含义就是说：第一次建模每个样本权重都为1/N，当进行分类之后，根据分类错误率会调整每个样本的权重。（假如第一次得到e分类误差为0.4）

根据底层公式使得被分错的样本会大于1/N，而正确的样本会小于1/N。然后根据

就可以得到第一个弱学习器的权重，f1（x）=W1（X）*G1(X)。

第二次建模：

根据权值对S进行有放回的随机抽样，得到一个容量为N的随机样本S2 利用S2建立模型T2 重新调整S中各个观测的权重，对于T2预测正确的观测赋予较小的权值，预测错误的观测权值不变模型T2重点关注的是模型T1预测错误的样本。

同理：（第二次得到e分类误差就会降低，假如变成0.3），同时就会得到f2(x)=W1(x)G1(x) + W2(x)G2(x)

第三次建模：根据权值对S进行有放回的随机抽样，得到一个容量为N的随机样本S3 利用S3建立分类树T3 重新调整S中各个观测的权重，对于T3预测正确的观测赋予较小的权值，预测错误的观测权值不变模型T3重点关注的是模型T2预测错误的样本

同理：（第三次得到e分类误差就会降低，假如变成0.2），同时就会得到f2(x)=W1(x)G1(x) + W2(x)G2(x)+ W3(x)G3(x)

重复上述步骤M次，得到M个自举样本S1 ， S2 ， …,SM以及M个预测模型T1 ， T2 ， …,TM。

G(x) = sign[fm(x)] = sign[ W1(x)G1(x) + W2(x)G2(x)+ W3(x)G3(x)+.....+Wm(x)Gm(x)]。

就这样，分错样本权值增大，分对样本权值变小，而在下一轮迭代中，总是选取让误差率最低的阈值来设计基本分类器，所以误差率e不断降低。

2.预测阶段

对于分类问题：依照预测类别分别计算权值的总和。权值和最大的类别即为观测X的最终预测类别对于回归问题：以M个预测给出的预测值的平均值作为最终预测值

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
集成模型-组合预测模型

本文介绍的集成模型的主要算法，是对我们老师的ppt进行简要的总结。
复制链接

扫一扫

专栏目录

睡觉前 CSDN认证博客专家 CSDN认证企业博客

码龄3年

11: 原创

129万+: 周排名

192万+: 总排名

9263: 访问

: 等级

138: 积分

257: 粉丝

24: 获赞

12: 评论

131: 收藏

私信

关注

热门文章

分类专栏

数据挖掘相关知识点 5篇

最新评论

ARIMA和ARIMA-GARCH模型预测股票价格-R语言
仲侣二七: 谢谢博主质量这么高的帖子！救我狗命
关联规则挖掘-关于板块间联动效应
weixin_45163812: 请问，可以分享数据吗？
决策树建模
CSDN-Ada助手: 恭喜您撰写了第10篇博客，题为“决策树建模”。我非常高兴看到您继续保持创作的热情和努力。在这篇博客中，您对决策树建模的内容进行了探讨，给读者们提供了宝贵的知识和见解。接下来，我想鼓励您在未来的创作中进一步拓展主题。或许您可以考虑介绍一些与决策树建模相关的实际案例或者深入分析决策树在特定领域的应用。同时，如果有机会，您也可以尝试探讨一些与决策树建模相关的进阶技巧或者挑战，这将为读者们提供更多的学习和思考的机会。再次恭喜您的辛勤付出，期待您未来更多博客的发布！
时间序列第二章知识点
CSDN-Ada助手: 恭喜您写完了第11篇博客！标题“时间序列第二章知识点”让我对这篇文章充满期待。您坚持创作并分享知识点，真是令人钦佩的勤奋态度。如果我可以提供一些建议的话，我建议您在接下来的创作中，可以尝试增加一些实例或案例分析，这样读者能更好地理解和应用您所分享的时间序列知识。再次恭喜您，期待您未来更多的精彩博文！
决策树建模
CSDN-Ada助手: 恭喜您写出了第9篇博客，内容非常有价值！决策树建模是数据分析中非常重要的一环，您的分享无疑对读者能够更好地理解和应用决策树算法有很大帮助。建议您在下一步的创作中可以考虑加入更多实例和案例，让读者更深入地理解您的思路。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。