14天数据分析与机器学习实践之Day12——集成算法与随机森林

最新推荐文章于 2024-01-20 10:00:00 发布

名功

最新推荐文章于 2024-01-20 10:00:00 发布

阅读量142

点赞数

分类专栏： Python七天学习文章标签：算法决策树机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45817449/article/details/107585523

版权

Python七天学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

14天数据分析与机器学习实践之Day12——集成算法与随机森林

Ensemble learning

目的：让机器学习效果更好，单个不行，群殴走起
Bagging：训练多个分类器取平均
Boosting：从弱学习器开始加强，通过加权来进行训练
（加入一棵树，要比原来强）
Stacking：聚合多个分类或回归模型（可以分阶段来做）

Bagging模型

全称： bootstrap aggregation（说白了就是并行训练一堆分类器）
最典型的代表就是随机森林啦
随机：数据采样随机，特征选择随机
森林：很多个决策树并行放在一起

随机森林

构造树模型：

在这里插入图片描述
由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样

Bagging模型

树模型：

在这里插入图片描述
之所以要进行随机，是要保证泛化能力，如果树都一样，那就没意义了！

KNN模型：

在这里插入图片描述

树模型：

在这里插入图片描述
理论上越多的树效果会越好，但实际上基本超过一定数量就差不多上下浮动了

随机森林优势

它能够处理很高维度（feature很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些feature比较重要
容易做成并行化方法，速度比较快
可以进行可视化展示，便于分析

Boosting模型

典型代表：AdaBoost， Xgboost
Adaboost会根据前一次的分类效果调整数据权重
解释：如果某一个数据在这次分错了，那么在下一次我就会给它更大的权重
最终的结果：每个分类器根据自身的准确性来确定各自的权重，再合体

Adaboost工作流程

每一次切一刀！
最终合在一起
弱分类器这就升级了！

Stacking模型

堆叠：很暴力，拿来一堆直接上（各种分类器都来了）
可以堆叠各种各样的分类器（KNN,SVM,RF等等）
分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练

参考文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
14天数据分析与机器学习实践之Day12——集成算法与随机森林

14天数据分析与机器学习实践之Day12——集成算法与随机森林Ensemble learning目的：让机器学习效果更好，单个不行，群殴走起Bagging：训练多个分类器取平均Boosting：从弱学习器开始加强，通过加权来进行训练（加入一棵树，要比原来强）Stacking：聚合多个分类或回归模型（可以分阶段来做）Bagging模型全称： bootstrap aggregation（说白了就是并行训练一堆分类器）最典型的代表就是随机森林啦随机：数据采样随机，特征选择
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。