【机器学习】集成学习

最新推荐文章于 2023-05-27 15:19:17 发布

张小猪的家

最新推荐文章于 2023-05-27 15:19:17 发布

阅读量101

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_39574469/article/details/119671504

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

- 集成学习

集成学习

1.集成学习算法简介

1.1 什么是集成学习

在这里插入图片描述
集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。

1.2 机器学习的两个核⼼任务

任务⼀：如何优化训练数据 —> 主要⽤于解决⽋拟合问题
任务⼆：如何提升泛化性能 —> 主要⽤于解决过拟合问题

1.3 集成学习中boosting和Bagging

在这里插入图片描述
只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的

2.Bagging和随机森林

2.1 Bagging集成原理

⽬标：把下⾯的圈和⽅块进⾏分类
在这里插入图片描述
实现过程：

采样不同数据集

2)训练分类器

3)平权投票，获取最终结果

4)主要实现过程⼩结
在这里插入图片描述

2.2 随机森林构造过程

在机器学习中，随机森林是⼀个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数⽽定。

随机森林 = Bagging + 决策树
在这里插入图片描述
例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True

随机森林够造过程中的关键步骤(M表示特征数⽬)：

1)⼀次随机选出⼀个样本，有放回的抽样，重复N次(有可能出现重复的样本)

2) 随机去选出m个特征, m <<M，建⽴决策树

思考

1.为什么要随机抽样训练集？　　
如果不进⾏随机抽样，每棵树的训练集都⼀样，那么最终训练出的树分类结果也是完全⼀样的

2.为什么要有放回地抽样？
如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是“有偏的”，都是绝对“⽚⾯的”(当然这样说可能不对)，也就是说每棵树训练出来都是有很⼤的差异的；⽽随机森林最后分类取决于多棵树(弱分类器)的投票表决。

2.3 包外估计 (Out-of-Bag Estimate)

在随机森林构造过程中，如果进⾏有放回的抽样，我们会发现，总是有⼀部分样本我们选不到。

这部分数据，占整体数据的⽐重有多⼤呢？

对于任意⼀组数据 (x n, y n) 是包外数据的概率为：1/e。由于基分类器是构建在训练样本的⾃助抽样集上的，只有约 63.2％原样本集出现在中，⽽剩余的 36.8％的数据作为包外数据，可以⽤于基分类器的验证集。

经验证，包外估计是对集成分类器泛化误差的⽆偏估计.

在随机森林算法中数据集属性的重要性、分类器集强度和分类器间相关性计算都依赖于袋外数据。

这部分数据有什么⽤呢？
- 当基学习器是决策树时，可使⽤包外样本来辅助剪枝，或⽤于估计决策树中各结点的后验概率以辅助对零训练样本结点的处理；
- 当基学习器是神经⽹络时，可使⽤包外样本来辅助早期停⽌以减⼩过拟合。

3.Boosting

3.1 什么是boosting

在这里插入图片描述

随着学习的积累从弱到强
简⽽⾔之：每新加⼊⼀个弱学习器，整体能⼒就会得到提升
代表算法：Adaboost，GBDT，XGBoost，LightGBM

3.2 实现过程

1.训练第⼀个学习器在这里插入图片描述
2.调整数据分布

3.训练第⼆个学习器

4.再次调整数据分布

5.依次训练学习器，调整数据分布

6.整体过程实现
在这里插入图片描述

3.3 bagging集成与boosting集成的区别：

区别⼀:数据⽅⾯
Bagging：对数据进⾏采样训练；
Boosting：根据前⼀轮学习结果调整数据的重要性。
区别⼆:投票⽅⾯
Bagging：所有学习器平权投票；
Boosting：对学习器进⾏加权投票。
区别三:学习顺序
Bagging的学习是并⾏的，每个学习器没有依赖关系；
Boosting学习是串⾏，学习有先后顺序。
区别四:主要作⽤
Bagging主要⽤于提⾼泛化性能（解决过拟合，也可以说降低⽅差）
Boosting主要⽤于提⾼训练精度（解决⽋拟合，也可以说降低偏差）

3.4 AdaBoost介绍

步骤⼀：初始化训练数据权重相等，训练第⼀个学习器。

该假设每个训练样本在基分类器的学习中作⽤相同，这⼀假设可以保证第⼀步能够在原始数据上学习基本分类器H 1 (x)

步骤⼆：AdaBoost反复学习基本分类器，在每⼀轮m = 1, 2, …, M顺次的执⾏下列操作：

（a）在权值分布为D t 的训练数据上，确定基分类器；
（b）计算该学习器在训练数据中的错误率：
在这里插入图片描述

（c）计算该学习器的投票权重：
在这里插入图片描述
（d）根据投票权重，对训练数据重新赋权

将下⼀轮学习器的注意⼒集中在错误数据上

重复执⾏a到d步，m次；

步骤三：对m个学习器进⾏加权投票
在这里插入图片描述
关键点剖析

在这里插入图片描述

4.GBDT介绍

GBDT 的全称是 Gradient Boosting Decision Tree，梯度提升树，在传统机器学习算法中，GBDT算的上TOP3的算法。想要理解GBDT的真正意义，那就必须理解GBDT中的Gradient Boosting 和Decision Tree分别是什么？

4.1 Decision Tree：CART回归树

⾸先，GBDT使⽤的决策树是CART回归树，⽆论是处理回归问题还是⼆分类以及多分类，GBDT使⽤的决策树通通都是都是CART回归树。

为什么不⽤CART分类树呢？
因为GBDT每次迭代要拟合的是梯度值，是连续值所以要⽤回归树。

对于回归树算法来说最重要的是寻找最佳的划分点，那么回归树中的可划分点包含了所有特征的所有可取的值。

在分类树中最佳划分点的判别标准是熵或者基尼系数，都是⽤纯度来衡量的，但是在回归树中的样本标签是连续数值，所以再使⽤熵之类的指标不再合适，取⽽代之的是平⽅误差，它能很好的评判拟合程度。

4.2 Gradient Boosting：拟合负梯度

梯度提升树（Grandient Boosting）是提升树（Boosting Tree）的⼀种改进算法，所以在讲梯度提升树之前先来说⼀下

提升树。先来个通俗理解：假如有个⼈30岁，我们⾸先⽤20岁去拟合，发现损失有10岁，这时我们⽤6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们⽤3岁拟合剩下的差距，差距就只有⼀岁了。如果我们的迭代轮数还没有完，可以继续迭代下⾯，每⼀轮迭代，拟合的岁数误差都会减⼩。最后将每次拟合的岁数加起来便是模型输出的结果。
提升树算法：
在这里插入图片描述

4.3 GBDT算法原理

将Decision Tree和Gradient Boosting介绍完了，下⾯将这两部分组合在⼀起就是我们的GBDT了。
（1）初始化弱学习器
（2）对m=1,2,…,M有：

（a）对每个样本i=1,2,…,N，计算负梯度，即残差
（b）将上步得到的残差作为样本新的真实值，并将数据作为下棵树的训练数据，得到⼀颗新的回归树
（c）对叶⼦区域j=1,2,…J计算最佳拟合值
（d）更新强学习器

（3）得到最终学习器

张小猪的家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】集成学习

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录集成学习1.集成学习算法简介1.1 什么是集成学习1.2 机器学习的两个核⼼任务1.3 集成学习中boosting和Bagging2.Bagging和随机森林2.1 Bagging集成原理2.2 随机森林构造过程2.3 包外估计 (Out-of-Bag Estimate)3.Boosting3.1 什么是boosting3.2 实现过程3.3 bagging集成与boosting集成的区别：3.4 AdaBoost介绍4.GBDT介
复制链接

扫一扫