Python数据分析与机器学习24-集成算法与随机森林

最新推荐文章于 2022-10-02 22:19:04 发布

只是甲

最新推荐文章于 2022-10-02 22:19:04 发布

阅读量359

点赞数

分类专栏：数据分析 + 机器学习 Python # Python数据分析与机器学习文章标签：机器学习 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010520724/article/details/125935759

版权

Python 同时被 3 个专栏收录

134 篇文章 16 订阅

订阅专栏

数据分析 + 机器学习

108 篇文章 31 订阅

订阅专栏

Python数据分析与机器学习

68 篇文章 2 订阅

订阅专栏

文章目录

一. 集成算法概述
二. Bagging模型
三. Boosting模型
四. Stacking模型
参考：

一. 集成算法概述

目的：
让机器学习效果更好，单个不行，群殴走起

分类:

Bagging
训练多个分类器取平均
Boosting
从弱学习器开始加强，通过加权来进行训练
（加入一棵树，要比原来强）
Stacking
聚合多个分类或回归模型（可以分阶段来做）

二. Bagging模型

全称：bootstrap aggregation（说白了就是并行训练一堆分类器）
最典型的代表就是随机森林啦

随机：
数据采样随机，特征选择随机

森林：
很多个决策树并行放在一起

随机森林:
构造树模型：

由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样

Bagging模型：
树模型：

之所以要进行随机，是要保证泛化能力，如果树都一样，那就没意义了！

随机森林优势:
它能够处理很高维度（feature很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些feature比较重要
容易做成并行化方法，速度比较快
可以进行可视化展示，便于分析

Bagging模型：
KNN模型：

KNN就不太适合，因为很难去随机让泛化能力变强！

树模型：

理论上越多的树效果会越好，但实际上基本超过一定数量就差不多上下浮动了

三. Boosting模型

典型代表：
AdaBoost，Xgboost
Adaboost会根据前一次的分类效果调整数据权重

解释：
如果某一个数据在这次分错了，那么在下一次我就会给它更大的权重

最终的结果：
每个分类器根据自身的准确性来确定各自的权重，再合体

Adaboost工作流程:
每一次切一刀！
最终合在一起
弱分类器这就升级了！
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SdIDQuLS-1658479702744)(https://upload-images.jianshu.io/upload_images/2638478-f949f1c93686ea21.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

四. Stacking模型

堆叠：
很暴力，拿来一堆直接上（各种分类器都来了）
可以堆叠各种各样的分类器（KNN,SVM,RF等等）

分阶段：
第一阶段得出各自结果，第二阶段再用前一阶段结果训练
为了刷结果，不择手段！

堆叠在一起确实能使得准确率提升，但是速度是个问题
集成算法是竞赛与论文神器，当我们更关注于结果时不妨来试试！

参考：

https://study.163.com/course/introduction.htm?courseId=1003590004#/courseDetail?tab=1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析与机器学习24-集成算法与随机森林

python 数据分析机器学习集成算法随机森林
复制链接

扫一扫

专栏目录

只是甲 CSDN认证博客专家 CSDN认证企业博客

码龄11年

793: 原创

2898: 周排名

142万+: 总排名

252万+: 访问

: 等级

1万+: 积分

4万+: 粉丝

749: 获赞

540: 评论

3944: 收藏

私信

关注

热门文章

分类专栏

最新评论

MySQL 计算不包含最大值最小值
xin_heng: 嗯呢,适合的场景太少,比如多维度情况就不好处理
hive sql 卡在提交JOB
weixin_48847909: 我是在执行hive insert语句时卡在这了，但是kill掉任务后，再次提交还是卡在这了，没有任何报错
Flink基础系列7-通过Web UI执行jar文件
卡林神不是猫: 阿婆主你好，请问flink的ui界面怎么出现的呢？我想在ui上面提交jar宝。
Hudi系列23:常见问题
优乐美R: 请教一下，数据有重复这一点 table type：COW 尝试加了，write.precombine 也还是有重复发现并不是所有数据都是重复，而是有一部分重复，分开了两个parquet文件，这个具体是什么导致的，还需要配置什么参数吗？
Java基础系列32-数组、集合练习
冰默不准偷懒: 俺这个也行 int[] arr = {46,5,4,12,11,2,15,5,11,58}; LinkedHashSet<Object> hashSet = new LinkedHashSet<>(); for (int i : arr) { hashSet.add(i); } // int[] arr2 = new int[hashSet.size()]; Object[] arr2 = hashSet.stream().toArray(); for (Object o : arr2) { System.out.println(o); }

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。