8-1 bagging & 随机森林

最新推荐文章于 2023-04-27 16:45:35 发布

haozhepeng

最新推荐文章于 2023-04-27 16:45:35 发布

阅读量191

点赞数

分类专栏：学习-机器学习数据挖掘机器学习

本文链接：https://blog.csdn.net/haozhepeng/article/details/94732094

版权

数据挖掘同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

机器学习

13 篇文章 0 订阅

订阅专栏

学习-机器学习

10 篇文章 0 订阅

订阅专栏

目前常见的集成（ensemble ）学习方法：bagging,RF(采用了bagging 思想)，boosting(adaboosting, GBDT,XGB,LGBM)。

两者不同在于 bagging是集成多个强分类器，思路是最小化方差。个体学习器间不存在强依赖关系、可同时生成的并行化方法。

而boosting 是串行集成多个弱分类器，思路是最小化误差，下一个分类器需要依赖上一个的结果，多个若分类器间不能并行。

boosting 相关算法见https://mp.csdn.net/postedit

一、bagging

Bootstraping的名称来自成语“pull up by your ownbootstraps”，意思是依靠你自己的资源，称为自助
法，它是一种有放回的抽样方法（bootstrap aggregation 简称 bagging）

1.bagging 具体做法如下：

从样本集中重采样(有重复的)选出n个样本
在所有属性上，对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)
复以上两步m次，即获得了m个分类器
将数据放在这m个分类器上，最后根据这m个分类器的投票结果，决定数据属于哪一类。

演示图：

2.采样率

在Bagging中,一个样本可能被多次采样,也可能一直不被采样,假设一个样本一直不出现在采样集的概率为(1-1/N) ** N,那么对其求极限可知,原始样本数据集中约有63.2%的样本出现在了,Bagging使用的数据集中,同时在采样中,我们还可以使用袋外样本(out of Bagging)来对我们模型的泛化精度进行评估.