集成学习基本概念

最新推荐文章于 2024-05-25 08:00:00 发布

王先生的副业

最新推荐文章于 2024-05-25 08:00:00 发布

阅读量701

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/uncle_gy/article/details/80023374

版权

机器学习专栏收录该内容

46 篇文章 3 订阅

订阅专栏

个体与集成

集成学习（ $ensemble\space learning$ ）通过构建并结合多个学习器来完成学习任务，有时候也被称为多分类器系统（ $multi-classifier \space system$ ）、基于委员会的学习（ $committee-based \space learning$ ）等。

通过聚集多个分类器的预测来提高分类准确率，这些技术成为组合（或者分类器组合）
组合方法由训练数据构建一组基分类器，然后对每个基分类器的预测进行投票来分类。

基本流程：

这里写图片描述

构建组合分类器的基本方法

通过处理训练数据集

样例：
装袋（bagging）和提升（boosting）
做法：
根据某种抽样分布，通过对原始数据进行再抽样来得到多个训练集。抽样分布决定了一个样本作为训练的可能性的大小，并且可能因为试验而异，然后使用特定的学习算法为每个训练集合建立一个分类器。

通过处理输入特征

样例：
随机森林（Random Forest）
做法：
通过选择输入特征的子集来形成每个训练集合。子集可以随机选择，也可以根据领域专家的建议选择。一些研究表明，对于那些含有大量冗余特征的数据集，这种方法的性能非常好。

通过处理类标号

样例： $ECOC$ 码
做法：
适用于类足够多的情况，通过将类的标号随机划分为两个不相交的子集 $A_0$ 和 $A_1$ ，把训练数据变化为二类问题。类标号属于子集 $A_0$ 的训练样本指派到类 $0$ 而那些类标号属于子集 $A_1$ 的被指派到类 $1$ ，然后使用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次，就得到一组基分类器。当遇到一个检验样本的时候，使用每个基分类器 $C_i$ 预测他的类标号。如果检测样本被预测为类 $0$ ，则所有属于 $A_0$ 的类都的到一票。相反如果它被预测为类 $1$ 则所有属于 $A_1$ 的类都得到一票。最后统计选票，将检测结果指派到的得票最高的类。

通过处理学习算法

同一个训练数据集上多次执行算法可能得到不同的模型。

组合方法的一般过程：

这里写图片描述

投票方法

$\mathbf{Vote}$

平均法

简单平均法

$H(\mathbf{x})=\dfrac{1}{T}\sum_{i=1}^{T}h_i(\mathbf{x})$

加权平均法

$H(\mathbf{x})=\sum_{i=1}^{T}w_ih_i(\mathbf{x})$
其中 $w_i$ 是个体学习器 $h_i$ 的权重，通常要求 $w_i\ge 0,\sum_{i=1}^{T}w_i=1$

投票法

绝对多数投票法

H (x) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ c j, r e j e c t, i f \sum i = 1 T h j i (x) > 0.5 \sum k = 1 N \sum i = 1 T h k i (x) o t h e r w i s e

$H(\mathbf{x})=\left\{ \begin{aligned} &c_j,& if \sum_{i=1}^{T}h_{i}^{j}(\mathbf{x})\gt0.5\sum_{k=1}^{N}\sum_{i=1}^{T}h_{i}^{k}(\mathbf{x})\\ &reject,&otherwise\\ \end{aligned} \right.$
若某个标记的票过半，则预测结果是该标记，否则拒绝预测。

相对多数投票法

H (x) = c arg max j \sum T i = 1 h j i (x)

$H(\mathbf{x})=c_{\mathop{\arg\max}\limits_{j}\sum_{i=1}^{T}h_{i}^{j}(\mathbf{x})}$

加权投票法

H (x) = c arg max j \sum T i = 1 w i h j i (x)

$H(\mathbf{x})=c_{\mathop{\arg\max}\limits_{j}\sum_{i=1}^{T}w_ih_{i}^{j}(\mathbf{x})}$
其中

wi w i $w_i$ 是个体学习器

hi h i $h_i$ 的权重，通常要求

wi≥0,∑Ti=1wi=1 w i ≥ 0 , ∑ i = 1 T w i = 1 $w_i\ge 0,\sum_{i=1}^{T}w_i=1$

王先生的副业

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
集成学习基本概念

个体与集成集成学习（ensemble&amp;nbsp;learningensemble&amp;nbsp;learningensemble\space learning）通过构建并结合多个学习器来完成学习任务，有时候也被称为多分类器系统（multi−classifier&amp;nbsp;systemmulti−classifier&amp;nbsp;systemmulti-classifier \space system...
复制链接

扫一扫