5. 集成学习引入

最新推荐文章于 2024-07-18 23:59:01 发布

许久是混子

最新推荐文章于 2024-07-18 23:59:01 发布

阅读量1.3k

点赞数

分类专栏：有监督学习数据挖掘文章标签：集成学习机器学习人工智能

本文链接：https://blog.csdn.net/XuJiuInChina/article/details/122064476

版权

数据挖掘同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

有监督学习

8 篇文章 0 订阅

订阅专栏

集成学习引入

文章目录

一、概念

面对一个机器学习问题，通常有两种策略。一种是研发人员尝试各种模型，选择其中表现最好的模型做重点调参优化。这种策略类似于比赛，通过强强竞争来选拔最优的运动员，并逐步提高成绩。另一种重要的策略是集各家之长，如同君主广泛的听取众多谋臣的建议，然后综合考虑，得到最终决策。后一种策略的核心，是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中每个单独的分类器称为基分类器。

二、集成学习策略

集成学习得到多个学习器后，结合策略得到最终的结果。通常用到最多的是平均法，投票法和学习法。

投票法：对于分类问题的预测。
平均法：对于数值类的回归预测。
学习法：为了解决投票法和平均法误差较大的问题。

投票法通常用于分类问题。这种技术中使用多个模型来预测每个数据点。每个模型的预测都被视为一次“投票”。大多数模型得到的预测被用作最终预测结果。即对 $K$ 个学习器的分类结果做一个统计，出现次数最多的类作为预测类。

例如：当你让 $5$ 位同事评价你的电影时（最高5分）; 我们假设其中三位将它评为4，而另外两位给它一个5。由于多数人评分为4，所以最终评分为4。你可以将此视为采用了所有预测的众数 $(m o d e)$ 。

平均法类似于最大投票技术，这里对每个数据点的多次预测进行算数平均。在这种方法中，我们从所有模型中取平均值作为最终预测。平均法可用于在回归问题中进行预测或在计算分类问题的概率时使用。

例如，在此案例的情况中，平均法将取所有值的平均值。即 $(5 + 4 + 5 + 4 + 4) / 5 = 4.4$ 。

平均法和投票法是对弱学习器的结果做平均或者投票，相对比较简单，但是可能学习误差较大，于是就有了学习法。

对于学习法，代表方法是 $s t a c k i n g$ ，当使用 $s t a c k i n g$ 的结合策略时，我们不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，也就是说，我们将训练集弱学习器的学习结果作为输入，重新训练一个学习器来得到最终结果。

在这种情况下，我们将弱学习器称为初级学习器，将用于结合的学习器称为次级学习器。对于测试集，我们首先用初级学习器预测一次，得到次级学习器的输入样本，再用次级学习器预测一次，得到最终的预测结果。

三、Bagging

$B a g g i n g$ 方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林 $(R a n d o m F o r e s t)$ ，为了让基分类器之间互相独立，将训练集分成若干子集（当训练样本数量较少时，子集之间可能有交叠）。 $B a g g i n g$ 方法是一个集体决策的过程，每个个体都进行单独学习，学习的内容可以相同，也可以不同，也可以部分重叠。由于个体之间的差异性，最终做出的判断不会完全一致。在最终决策时，每个个体单独做出判断，再通过投票的方式做出最后的集体决策。

$B a g g i n g$ 通过降低基学习器的方差改善了泛化误差： $b a g g i n g$ 对样本进行有放回的重采样，学习结果是各个学习模型的平均值。由于重采样的样本集具有相似性以及使用相同的学习器模型。因此，各学习模型的结果相近，即模型有近似相等的偏差和方差。

假设 $X_i$ 为 $i$ 组训练样本集，各组训练样本集是相互独立的，不同的训练样本集代表不同的模型，由概率论可知：
$E[\frac{\sum X_i}{n}] = E[X_i] \\ Var[\frac{\sum X_i}{n}] = \frac{1}{n^2}Var[X_i]$
我们可以看到，均值没变，但是方差却减小到只有原方差的 $\frac1n^2$ 。

另外由于每一个样本被选中的概率相同，因此 $b a g g i n g$ 并不侧重于训练数据集中的任何特定实例。因此对于噪声数据，装袋不太受过分拟合的影响。

关于 $b a g g i n g$ 的一个有必要提及的问题： $b a g g i n g$ 的代价是不用单棵决策树来做预测，具体哪个变量起到重要作用变得未知，所以 $b a g g i n g$ 改进了预测准确率但损失了解释性。

四、Boosting

$B o o s t i n g$ 的主要作用跟 $b a g g i n g$ 类似也是一种把若干个基分类器整合为一个分类器的方法。它训练基分类器时采用串行的方式，每个基分类器之间有依赖。

它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。

第一步：从原始的数据集中创建一个子集。
第二步：最初，所有的数据点都具有相同的权重。
第三步：在此子集上创建基础模型。
第四步：该模型用于对整个数据集进行预测。
第五步：使用实际值和预测值计算误差。
第六步：预测错误的点获得更高的权重。
第七步：创建另一个模型并对数据集进行预测（此模型尝试更正先前模型中的错误。
第八步：类似地，创建多个模型，每个模型校正先前模型的错误。
第九步：最终模型（强学习器）是所有模型（弱学习器）的加权平均值。

因此 $B o o s t i n g$ 结合了很多弱学习器来形成一个强学习器，单个模型表现不佳，但它们在数据集的某些部分表现很好。因此，每个模型实际上提升了集成的整体性能。

许久是混子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5. 集成学习引入

集成学习引入文章目录一、概念二、集成学习策略三、Bagging四、Boosting一、概念面对一个机器学习问题，通常有两种策略。一种是研发人员尝试各种模型，选择其中表现最好的模型做重点调参优化。这种策略类似于比赛，通过强强竞争来选拔最优的运动员，并逐步提高成绩。另一种重要的策略是集各家之长，如同君主广泛的听取众多谋臣的建议，然后综合考虑，得到最终决策。后一种策略的核心，是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中每个单独的分类器称为基分类器。#merm
复制链接

扫一扫