数据挖掘学习笔记9-集成算法

最新推荐文章于 2023-12-28 22:02:44 发布

irony_202

最新推荐文章于 2023-12-28 22:02:44 发布

阅读量563

点赞数

文章标签：数据挖掘算法学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/irony_202/article/details/122929302

版权

集成学习：有策略的生成分类器，有策略的将他们合并在一起。
目的：
1.提高单个模型的准确性
2.减少选到较弱的模型的可能
用不同的参数、数据集、特征集训练出不同的分类器，每一个分类器很弱，再用某种方式合并。
bagging（bootstrap aggregation）：
对样本再进行采样，用随机采样得到的数据训练分类器（并行），对任意输入，将所有分类器的结果进行投票（所有分类器权重相同），少数服从多数，可以降低模型的方差
随机森林（RF）算法效果通常不错
stacking：在bagging的基础上，将所有分类器的结果作为输入，再训练一个分类器，相当于训练基础分类器的权重
boosting：
串行训练分类器，先选取一部分样本训练第一个分类器，用所有样本测试该分类器，给此分类器分错的样本加权重，分对的样本减权，以此迭代训练后面的分类器（样本有权重）
基础分类器可以很弱（准确率大于50%即可）
在这里插入图片描述
adaboosting：数据挖掘十大算法之一
误差上届可以越来越小，且分类器的权重α是推导出来的1/2log（（1-e）/e）

可用数学证明模型的误差上届趋近于0
总结：
1.简洁，几乎没有参数
2.优化α是用局部最优的方法（贪心算法）
3.不容易出现过学习
4.模型太多（一般基础分类器为50），可解释性不强

region boosting：
动态权重：根据输入不同会有不同的权重
额外有一个可信度模型（也是一种分类器），来针对不同输入，给出不同的权重

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。