集成学习（一）_20200721

最新推荐文章于 2023-05-27 15:19:17 发布

柚芷

最新推荐文章于 2023-05-27 15:19:17 发布

阅读量124

点赞数

分类专栏：算法 # python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caicai0001000/article/details/107490712

版权

python 同时被 2 个专栏收录

45 篇文章 1 订阅

订阅专栏

24 篇文章 0 订阅

订阅专栏

集成分类器(ensemble)：

1.bagging(ensemble.bagging.BaggingClassifier)

　　其原理是从现有数据中有放回抽取若干个样本构建分类器，重复若干次建立若干个分类器进行投票，通过投票决定最终的分类结构

2.RandomForest(ensemble.RandomForestClassifier)

对随机选取的子样本集分别建立m个CART(Classifier and Regression Tree)，然后投票决定最终的分类结果

Random在此处的意义：

1）Bootstrap 中的随机选择子样本集

2）Random subspace 的算法从属性中随机选择k个属性，每个树节点分裂时从这随机的k个属性中，选择最优的

3.Boosting(ensemble.weight_boosting)

在选择分类超平面时给样本加了一个权值，使得loss function尽量考虑那些分错类的样本。（i.e.分错类的样本weight 大）

-boosting 重采样的不是样本，而是样本的分布。

　　最后的分类结果是几个弱分类器的线性加权和。注意这几个弱分类器都是一种base classifier类别。

-与bagging的区别：1）bagging 的训练集是随机的，各训练集是独立的；而boosting训练集的选择不是独立的，每次选择的训练集都依赖于上一次学习的结果；

2） bagging的每个预测函数（即弱假设）没有权重，而Boosting根据每一次训练的训练误差得到该次预测函数的权重；

　　　　　　　　　　3）bagging的每个分类器的训练样本是随机抽样构建，而Boosting会对上一次分类输出的结果进行采样，错误的样本会有更高的权重；

4）bagging的各个预测函数可以并行生成，而boosting的只能顺序生成。对于神经网络这样极为耗时的学习方法，Bagging可通过并行训练节省大量的时间开销。

　　2）、3）的权重机制，体现了boosting“提升”的特性。

-与bagging的共同点：都可以通过使用for循环给estimator赋不同的分类器类型，以实现集成多种分类器，而不是单一的某一种（比如决策树）。

代表算法 Adaboost 和 Realboost。总的来说，Adaboost 简单好用，Realboost 准确

4、GBDT

　　使用决策树作为基本分类器；梯度提升优化算法；

　　重复选择一个表现一般的模型并且每次基于先前模型的表现进行调整；

　　不同的是，AdaBoost是通过提升错分数据点的权重来定位模型的不足，而GradientBoosting是通过计算梯度（gradient）来定位模型的不足。因此相比AdaBoost，GradientBoosting可以使用更多种类的目标函数。

5.Stacking

在stacking（堆叠）方法中，每个单独分类器的输出会作为更高层分类器的输入，更高层分类器可以判断如何更好地合并这些来自低层的输出。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
集成学习（一）_20200721

集成分类器(ensemble)：1.bagging(ensemble.bagging.BaggingClassifier)　　其原理是从现有数据中有放回抽取若干个样本构建分类器，重复若干次建立若干个分类器进行投票，通过投票决定最终的分类结构2.RandomForest(ensemble.RandomForestClassifier) 对随机选取的子样本集分别建立m个CART(Classifier and Regression Tree)，然后投票决定最终的分类结果 Rando...
复制链接

扫一扫

专栏目录

柚芷 CSDN认证博客专家 CSDN认证企业博客

码龄7年

122: 原创

5万+: 周排名

2万+: 总排名

45万+: 访问

: 等级

3359: 积分

128: 粉丝

204: 获赞

75: 评论

1135: 收藏

私信

关注

热门文章

分类专栏

航模 3篇
机器学习 8篇
递归
知识工程 1篇
数据库 5篇
CTF 1篇
neo4j 5篇
语言 23篇
python 45篇
C# 2篇
工具 21篇
Git 7篇
算法 24篇
压缩算法 2篇
自然语言处理 13篇
嵌入式 9篇
其他 12篇
Linux 4篇

最新评论

压缩算法（二）——QuickLZ算法
caesura_k: 你是不是想找这个函数qlz_size_decompressed()
压缩算法（二）——QuickLZ算法
To油: quicklz压缩的时候会返回一个压缩后数据大小，但是解压的时候我获取不到压缩后的数据大小。如果能在解压的时候获取到就好了。现在的办法是自己加一个大小数据在每块前面，解压时候先读取大小再分配相应的内存去解压。quicklz的压缩文件里面应该自带一个参数我找不到
压缩算法（二）——QuickLZ算法
caesura_k: 有哇，quicklz.h里就提供了两个函数接口,我记得它某个函数的返回值就是压缩后的字节数；如果不是这两个函数那就是另外的中间函数；
压缩算法（二）——QuickLZ算法
To油: 明白了，quicklz有没有数据格式我可以获取到块压缩之后的压缩数据大小，如果能获取到就解决了这个问题
压缩算法（二）——QuickLZ算法
caesura_k: 你大于1599会出错，不是因为quicklz的缘故，而是因为上面解压malloc的内存分配只+400。所以内存不够了。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。