集成学习3——随机森林（RF）与 bagging

最新推荐文章于 2021-09-12 10:15:26 发布

端坐的小王子

最新推荐文章于 2021-09-12 10:15:26 发布

阅读量376

点赞数

分类专栏：机器学习文章标签：机器学习决策树算法

本文链接：https://blog.csdn.net/u012290039/article/details/106897894

版权

机器学习专栏收录该内容

11 篇文章 7 订阅

订阅专栏

随机森林大家都不会陌生，相对于XGB来讲，方法很简单，没有那么多复杂的公式，其主要是一种思想——bagging，关于抽样、统计的。随机森林也是决策树家族的一员，了解随机森林也得从决策树开始，感兴趣的可以参考这篇文章决策树——ID3/C4.5/CART算法以及集成学习1——XGBoost

1，概述

为什么要出现RF算法？当然是因为决策树算法有很多缺点和不足：

决策树算法的缺点：
1）贪婪算法，陷入局部最优。
2）树过深，容易过拟合。不能平衡方差与偏差，树复杂了偏差小，但是方差大（数据对模型的影响），树简单了方差小，但是偏差大。
3）不够稳定，数据出现微小变化树就会改变，受到高方差的困扰。
4）不太适合处理大规模数据

不管决策树如何优化和调试，其模型本身过于简单，必然会带来诸多缺点，比如抗干扰能力、泛化能力等。从一般的模型角度分析，一个模型误差可以分解为偏差、方差和噪音，偏差是指模型期望值与真实数据之间的差异，刻画了模型本身的拟合性能，方差是指模型结果与模型期望结果之间的差异，是相同大小的训练集对模型学习性能的影响，体现了数据扰动的影响，偏差和方差直接影响了模型的性能，所以在不改变决策树基本模型的基础上有两个主要方向，一个是减小偏差为主（XGBoost），一个是减小方差为主（RF）。

2，RF的基本思想

2.1 bagging思想

Bagging（bootstrap aggregating）是bootstrap 与aggregating两者的简称，aggregating我们知道是一种集成思想，将多个弱分类器集合起来组成一个强分类器，那么各个弱分类器之间如何训练呢？这里就用到了bootstrap 思想：
Bootstrap 是一种统计学上的估计方法，对观测数据进行再抽样，进而实现对总体数据的分布特性进行推断。因为我们一般获取不到整体样本，单独用观测样本，对于整体数据分布来说并不准确，所以获取相应的参数，均值、方差、中位数等等时，会有误差，通过这种方式会相对准确。

Bootstrap实现步骤：
1）在原有的样本中通过有放回的抽样，抽取一定数量的样本。
2）基于抽到的样本，我们获取相应的参数，比如 $\alpha$
3）重复上述步骤n次，一般大于1000次，获取n个 $\alpha$
4）最后我们可以计算被估计量的均值，方差等，作为样本的统计量。

简单来说就是：我们获取到的数据是不完全的，是整体数据的一部分，如何可以近似得到整体数据评估的参数，用的就是多次有放回的抽样思想。比如我们有N个样本，我们有放回的抽样N次，得到N个样本，评估一次参数 $\alpha$ ，重复这样的操作1000次，然后取平均，得到的近似结果 $\hat{\alpha}$

那么应用在随机森林算法中也很明显了，每建立一棵决策树，就通过Bootstrap方法抽取样本建模，多次建模后采用aggregating。

2.2 两个要点

RF有两个关注点：
1）在训练时，随机森林每次有放回的随机选取一部分学习样本，bootstrap，尽管每棵树都有较高的方差，但是整体而言数据的方差较小，同时偏差不会增加，这也是bootstrap的统计学意义，近似得到准确的数据分布。在测试时平均每个预测器的预测值，这种方法，称为bagging（bootstrap aggregating）
Bagging（bootstrap aggregating）可以减小统计学方差。通过多次有放回的随机采样，可以近似得出数据的分布，包括均值、方差等。Bagging方法从另一个角度有点像交叉验证，一部分训练另一部分（out of bagging,OOB）测试，所以bagging方法自身就能计算测试误差。
2）在节点分裂的时候，选取样本的部分特征计算分裂标准（列采样），一般设置为sqrt（x）个，从泛化能力上讲，这是一种防止过拟合的手段，减小方差（数据对模型的影响）。

所以，随机森林的特点，泛化能力较强，不容易过拟合。

关于RF与XGBoost的对比，可以参考这两篇文章：

集成学习1——XGBoost
集成学习2——XGBoost本身的特点，及XGB与GBDT、LGB、RF的区别于联系

端坐的小王子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
集成学习3——随机森林（RF）与 bagging

随机森林大家都不会陌生，相对于XGB来讲，方法很简单，没有那么多复杂的公式，其主要是一种思想——bagging，关于抽样、统计的。随机森林也是决策树家族的一员，了解随机森林也得从决策树开始，感兴趣的可以参考这篇文章决策树——ID3/C4.5/CART算法以及集成学习1——XGBoost目录1，概述2，RF的基本思想2.1 bagging思想2.2 两个要点1，概述为什么要出现RF算法？当然是因为决策树算法有很多缺点和不足：决策树算法的缺点：1）贪婪算法，陷入局部最优。2）树过深，容易过拟
复制链接

扫一扫

专栏目录