14、数据分析--集成学习（一）

T o r

于 2021-07-11 23:08:38 发布

阅读量473

点赞数

分类专栏：数据分析文章标签：决策树算法大数据 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qwe863226687/article/details/118661964

版权

集成学习（核心算法，算法中精度最高）：

概念：

将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器指那些分类准确率只稍微好于随机猜测的分类器(errorrate < 0.5)（弱学习器准确率不高，整合起来能得到一个强的学习器，准确率也会提高）

集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升

常见的集成学习思想有：Bagging Boosting Stacking

作用：

弱分类器间存在一定的差异性（都没有差异，整合之后就没有提升精确度的效果），这会导致分类的边界不同，也就是说可能存在错误。那么将多个弱分类器合并后，就可以得到更加合理的边界，减少整体的错误率，实现更好的效果

对于数据集过大或者过小，可以分别进行划分和有放回的操作产生不同的数据子集，然后使用数据子集训练不同的分类器，最终再合并成为一个大的分类器

如果数据的划分边界过于复杂，使用线性模型很难描述情况，那么可以训练多个模型，然后再进行模型的融合

对于多个异构的特征集的时候，很难进行融合，那么可以考虑每个数据集构建一个分类模型，然后将多个模型融合

效果：

对新的实例进行预测的时候，把个体学习器集成起来，通过对多个学习器的结果进行某种组合来决定最终的决策

集成学习形式：

种类：

Bagging（用同一种样本进行）：

自举汇聚法(Bootstrap Aggregating)，思想是：在原始数据集上通过有放回的抽样的方式，重新选择出S个新数据集来分别训练S个分类器的集成技术。也就是说这些模型的训练数据中允许存在重复数据。

Bagging方法训练出来的模型在预测新样本分类的时候，会使用多数投票或者求均值的方式来统计最终的分类结果。

Bagging方法的弱学习器可以是基本的算法模型，eg: Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN等。（其中ID3、C4.5、CART是配合最多的，也表明了集成学习的核心思想是决策树）

备注：Bagging方式是有放回的抽样，并且每个子集的样本数量必须和原始样本数量一致，但是子集中允许存在重复数据。

思想介绍：

Boosting思想（精确度比Bagging高，速度稍慢）：

个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，然后使用组合策略，得到最终的集成模型，这就是boosting的思想

结构：

串行地构造多个个体分类器，然后以一定的方式将他们组合成一个强学习器

Bagging思想：

个体学习器之间不存在强依赖关系（影响运算速度），一系列个体学习器可以并行生成，然后使用组合策略

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
14、数据分析--集成学习（一）

集成学习（核心算法，算法中精度最高）：概念：将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器指那些分类准确率只稍微好于随机猜测的分类器(errorrate < 0.5)（弱学习器准确率不高，整合起来能得到一个强的学习器，准确率也会提高）集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升常见的集成学习思想有：Bagging Boosting Stacking 作用
复制链接

扫一扫

专栏目录

T o r CSDN认证博客专家 CSDN认证企业博客

码龄3年

110: 原创

32万+: 周排名

73万+: 总排名

6万+: 访问

: 等级

1282: 积分

18: 粉丝

35: 获赞

37: 评论

82: 收藏

私信

关注

热门文章

分类专栏

最新评论

1、数据分析--共享单车使用量预测
红尘长安: 大佬，能不能给数据和源码
python23、datatime与logging
北风之神c: 写得赞，博主用心了。此国产日志 https://github.com/ydf0509/nb_log 使用原生 loggng封装，兼容性和替换性100%。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。4、多进程日志切割安全，文件日志写入性能高 5、入参简单，能一键自动记录到多种地方. 相比 loguru 有10胜。 pip install nb_log 。
TypeError: _vhstack_dispatcher() takes 1 positional argument but 2 were given
Alan20240108: 第一次点赞第二次收藏
18、数据分析--聚类算法
大家一起学编程（python）: 好文，评论一波走起
18、数据分析--聚类算法
彼方: 好文，进我的收藏夹吃灰吧

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

T o r 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。