集成学习：（1）bagging

最新推荐文章于 2024-08-07 00:41:16 发布

sa726663676

最新推荐文章于 2024-08-07 00:41:16 发布

阅读量878

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/sa726663676/article/details/112390533

版权

机器学习算法专栏收录该内容

20 篇文章 0 订阅

订阅专栏

导读：
集成学习概念
Bagging相关知识
随机森林介绍

集成学习概念
正所谓“三个臭皮匠赛过诸葛亮”的道理，在机器学习数据挖掘的工程项目中，使用单一决策的弱分类器显然不是一个明智的选择，因为各种分类器在设计的时候都有自己的优势和缺点，也就是说每个分类器都有自己工作偏向，那集成学习就是平衡各个分类器的优缺点，使得我们的分类任务完成的更加优秀。
比如下例
在这里插入图片描述
（图1） $h_1,h_2,h3分别表示不同的分类器$

Bagging

bagging的思路是训练k个独立的基学习器，对于每个基学习器的结果进行结合（加权或者多数投票）来获得一个强学习器。故在此有三个问题需要解决：

1.如何构造独立的弱分类器
2.如何选择基学习器
3.结合策略是什么

1. 如何构造“独立”
想要获得泛化能力强的集成，就需要集成中的个体学习器经可能地独立，但独立很难构造，故我们尽可能地使基学习器之间差异较大。(通过数据采样（随机抽取样本随机选择特征）来实现基学习器之间的差异）
在此bagging使用了boostrap的思想，从样本的训练集中有放回地抽取m次，获得第一个样本集，用于训练第一个基学习器，以此类推可获得k个样本集供基学习器训练。由于训练数据不同，我们获得的基学习器会有很大的差异。

使用boostrap还有另一个好处：虽然我们希望基学习器之间的差异经可能地大，但每个个体学习器的能力也不能太差，因而我们希望所有的基学习器总体上能尽可能地用到所有数据，来进行有效的学习。我们希望不同的样本集之间是交叠的，boostrap恰好满足了这一点。

Bootstrap(自助法)：统计学习中的一种有放回的重复采样技术

Bootstrap是一种抽样方法，通过局部样本估计全部样本的真实情况。
在这里插入图片描述
Bootstrap是现代统计学较为流行的一种统计方法，在小样本时效果很好。通过方差的估计可以构造置信区间等，其运用范围得到进一步延伸。就是一个在自身样本重采样的方法来估计真实分布的问题。当我们不知道样本分布的时候，bootstrap方法最有用。

2.基分类器的选取
bagging要求基分类器对样本分布敏感【2】，常用的基分类器为决策树、神经网络。KNN、线性分类器由于过于“稳定”（为什么稳定呀？）不适合作为基分类器。
为什么通常选择决策树和神经网络作为基分类器的原因？
答：树的节点分裂随机选择特征子集带来随机性，设定层数来控制泛化；
神经网络通过调整神经元数量、连接方式、网络层数、初始权值引入随机性；

集成学习的第一个问题就是如何得到若干个个体学习器。这里我们有两种选择【1】。
　　　　第一种就是所有的个体学习器都是一个种类的，或者说是同质的。比如都是决策树个体学习器，或者都是神经网络个体学习器。第二种是所有的个体学习器不全是一个种类的，或者说是异质的。比如我们有一个分类问题，对训练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习，再通过某种结合策略来确定最终的分类强学习器。

目前来说，同质个体学习器的应用是最广泛的，一般常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类，第一个是个体学习器之间存在强依赖关系，一系列个体学习器基本都需要串行生成，代表算法是boosting系列算法，第二个是个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表算法是bagging和随机森林（Random Forest）系列算法。

3. 结合策略
对于分类问题，我们使用多数表决；对于回归问题，我们使用平均法。

集成学习和模型融合的区别疑问？
如果数据输入数据都是整个数据集，我们选择不同的异质的学习器对其建模，这种属于集成学习吗？
集成学习不是对数据进行可重复的随机采样吗？
这种使用不同的模型对全部数据进行建模然后集成应该叫做“模型集成方法”或叫“模型融合方法”。比如DeepFM融合FM模型和Deep模型，NeuMF融合神经网络和矩阵分解算法。

集成学习：
（1）随机样本随机特征，单独训练基学习器（同质或者异质的），然后投票或平均
模型融合或者模型的联合训练：
（1）每个基学习器使用全部样本，单独训练不同的基学习器，然后投票或者平均
（2）使用多个模型计算损失总和，然后共同训练最小化一个损失函数

集成学习与联合训练的区别？
在集成学习中模型之间独立训练，仅在推理时合到一起。独立模型一般比较大。联合训练在训练时考虑多个模型，用其总和来同时优化所有参数。【4】

在讲解随机森林之前需要了解决策树：
https://editor.csdn.net/md?articleId=112392834

随机森林：

随机森林：为什么叫“随机”：因为要随机选择数据和随机选择特征来构建一颗树，为什么叫“森林”，因为森林由多颗不同的树构成，每颗树长的都不一样，起着作用也不一样。
随机森林的构造如下图所示：
在这里插入图片描述

一颗树是决策树，多颗树就是随机森林，解决了决策树的泛化能力弱的缺点。
随机：
随机选择固定数量的样本集，（有放回的抽取过程）
随机选择固定数量的特征集
比如10个数据集，随机选择5个样本集，随机选择几个特征集构建一颗树，这样我们就可以构建多颗树了。
然后每颗树都有一个分类结果，最后通过投票来抉择

【1】https://www.cnblogs.com/pinard/p/6131423.html
【2】https://zhuanlan.zhihu.com/p/61841728
【3】https://www.hrwhisper.me/machine-learning-model-ensemble-and-bagging/
【4】https://zhuanlan.zhihu.com/p/45402956