机器学习之Bagging与随机森林

最新推荐文章于 2024-06-07 23:08:39 发布

半度、

最新推荐文章于 2024-06-07 23:08:39 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43457608/article/details/111195143

版权

机器学习专栏收录该内容

10 篇文章 4 订阅

订阅专栏

本文介绍了集成学习的概念，重点讨论了Bagging算法和随机森林。Bagging通过自助采样创建多个训练集，训练基学习器，然后通过投票或平均策略进行结果集成，降低方差。随机森林在Bagging基础上增加了属性随机选择，提高了基决策树之间的多样性，从而提升整体分类准确性和抗过拟合能力。随机森林还有利于特征重要性的评估，且易于并行化计算。

摘要由CSDN通过智能技术生成

1、引入

一般经验中如果把好坏不等的东西掺到一起，通常结果会比最坏的好一些，比最好的坏一些。集成学习把多个学习器结合起来，如何获得比最好的单一学习器更好的性能呢？
考虑一个例子：二分类问题中，假定三个分类器在三个测试样本上表现，如下图所示。打对勾的表示正确分类，打叉号的表示分类错误。集成学习的结果通过投票法voting产生。即少数服从多数。第一个图中每个分类器有66.6%的精度，但集成学习却达到了100%。第二个图中三个分类器没有差别，但是集成之后性能却没有什么提高。第三幅图中每个分类器的精度都只有33.3%，集成学习的结果更糟糕。
在这里插入图片描述
这个例子我们可以总结出：要获得好的集成，个体学习器应有一定的“准确性”，即学习器不能太坏，并且要有“多样性”，即学习器之间具有差异。

2、Bootstrap sampling自助采样

模型的评估方法中有留一法（将数据集划分为两个互不相交的集合，一个做测试集，一个做训练集）和交叉验证方法（将数据分成k个大小相似互不相交的子集，每次使用k-1个子集做训练集，剩下的一个子集做测试集，以此循环进行k次的训练和测试，最后返回k次测试结果的均值。）。但是上述两种方法中都保留了一部分样本用于测试，所以实际模型所使用的训练集比源数据都要小，因此就会引入一些因训练样本规模不同而导致的估计偏差。另外一方面留一法受训练样本影响较小，但是计算复杂度又太高。因此为了解决减少训练样本规模不同造成的影响，同时还能比较高效地进行测试集的评估。自助法就是很好的解决方案。
boostrap抽样
在样本集D（样本数为m）内有放回的抽样，抽取数为m，每次抽取的概率相等为1/m，可能重复抽取。我们做一个简单的估计，样本m次采样中始终不被采样的概率为在这里插入图片描述
取极限得到原数据集D中36.8%的样本没有出现在采样数据集D1中。我们可以使用D1作为训练集，D-D1作为测试集。这样实际评估的模型与期望的模型都使用m个训练样本，而我们仍有数据总量的1/3的，没有在训练集中出现的样本用于测试。术语“包外估计”可以解释上述过程。

0.632=63.2%被抽样

3、bagging算法

此算法没有使用相同的训练集拟合集成分类器中的单个分类器，而是采用了Bootstrap有放回抽样选取训练数据集。
在这里插入图片描述

3.1 算法流程

在这里插入图片描述
Bagging基本流程：通过上述自助采样，采出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，在将这些基学习器进行组合。
在对预测输出进行结合的时候，Bagging通常对分类任务使用简单投票法，对回归任务进行简单的平均法。但是如果投票个数一致，则最简单的做法是随机选择一个类别，当然也可以进一步考察学习器投票的置信度来确定最终的分类。

3.2 算法图解分析

在这里插入图片描述
基本分类器可以是决策树，逻辑回归等基分类器。
对于稳定性不好的分类器很实用，通过多数投票，减小了泛化误差，而对于稳定的分类器，集成效果并不明显。

3.3 Bagging性能

（1）Bagging是一个很高效的集成学习算法
（2）Bagging与下面讲的AdaBoost只适用于二分类不同，它能不经修改地用于多分类、回归任务。
（3）自助bootstrap采样过程还给Bagging带来了另一个优点：由于每个基学习器只使用了初始训练集中约63.2%的样本，剩下的约36.8%样本可用作验证集来泛化性能进行“包外样本评估（即：不同于训练数据的样本）”。
（4）从偏差-方差分解角度看，Bagging主要关注降低方差，因此他在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更为明显。

3.4Bagging算法总结

Bagging算法首先采用M轮自助采样法，获得M个包含N个训练样本的采样集。然后，基于每个采样集训练出一个基学习器。最后将这M个基学习器进行组合。组合策略为：
（1）分类任务采用简单投票法：即每个基学习器一票
（2）回归问题使用简单平均法：即每个基学习器的预测值取平均值。

4、随机森林

随机森林就是建立很多决策树，组成一个决策树的“森林”，通过多棵树投票来进行决策。这种方法能够有效地提高对新样本的分类准确度。
随机森林在以决策树为基学习器构建Bagging集成（样本的随机选取）的基础上，进一步在决策树的训练过程中引入随机属性选择。
具体来说，传统决策树在选择划分属性时是在当前节点的属性集合（假设有d个属性）中选择一个最优属性；而在RF随机森林中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含K个属性的子集，然后在从这个子集中选择一个最优属性用于划分。K=d就是传统决策树，K=1则是随机选取一个属性用于划分

4.1 算法步骤

首先，对样本数据进行有放回的抽样，得到多个样本集。具体来讲就是每次从原来的N个训练样本中有放回地随机抽取N个样本(包括可能重复样本)。
然后，从候选的特征中随机抽取k个特征，作为当前节点下决策的备选特征，从这些特征中选择最好地划分训练样本的特征。用每个样本集作为训练样本构造决策树。单个决策树在产生样本集和确定特征后，使用CART算法计算，不剪枝。
最后，得到所需数目的决策树后，随机森林方法对这些树的输出进行投票，以得票最多的类作为随机森林的决策。
说明：
（1）随机森林的方法既对训练样本进行了采样，又对特征进行了采样，充分保证了所构建的每个树之间的差异性，使得投票结果更准确。
在这里插入图片描述
（2）随机森林的随机性体现在每棵树的训练样本是随机的，树中每个节点的分裂属性也是随机选择的。有了这2个随机因素，即使每棵决策树没有进行剪枝，随机森林也不会产生过拟合的现象。
随机森林中有两个可控制参数：
（1）森林中树的数量（一般选取值较大）
（2）抽取的属性值k的大小。

4.2 随机森林的优点

随机森林简单、容易实现、计算开销小，被誉为“代表集成学习技术水平的方法”。可以看出随机森林只是对Bagging做了很小的改动。Bagging的多样性只是体现在样本的随机性，随机森林的基学习器的多样性不仅来自于样本的随机性，还来自于属性的随机性。随机森林随着学习器数目的增加，随机森林通常会收敛到更低的泛化误差。
（1）分类结果更加准确
（2）可以处理高维度的属性，并且不用做特征选择
（3）即使有很大部分数据遗失，仍可以维持高准确度
（4）学习过程快速
（5）在训练完成后，能够给出哪些属性比较重要
（6）容易实现并行化计算
（7）在训练过程中，能够检测到属性之间的相互影响

半度、

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习之Bagging与随机森林

随机森林1、算法介绍2、随机森林的步骤1、算法介绍随机森林就是建立很多决策树，组成一个决策树的“森林”，通过多棵树投票来进行决策。这种方法能够有效地提高对新样本的分类准确度。随机森林在以决策树为基学习器构建Bagging集成（样本的随机选取）的基础上，进一步在决策树的训练过程中引入随机属性选择。具体来说，传统决策树在选择划分属性时是在当前节点的属性集合（假设有d个属性）中选择一个最优属性；而在RF随机森林中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含K个属性的子集，然后在从这个子集
复制链接

扫一扫

专栏目录