集成算法简介

最新推荐文章于 2024-01-30 23:05:19 发布

MrNeoJeep

最新推荐文章于 2024-01-30 23:05:19 发布

阅读量590

点赞数 1

分类专栏：机器学习 Machine Learning 文章标签：算法决策树集成学习

本文链接：https://blog.csdn.net/qq_50195602/article/details/128916910

版权

机器学习 Machine Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、集成学习概述

集成学习（ $E n se mb l e l e a r nin g$ ）的目的是让机器学习的的效果更好，一个不行，就多个一起。

常用的有三种方式

Bagging：训练多个分类器取平均 $\sum\limits_{m=1}^{M} f_{m}(x)$
Boosting：从弱学习器开始加强，通过加权来进行训练

$F_{m}(x)=F_{m-1}(x)+\operatorname{argmin}_{h} \sum\limits_{i=1}^{n} L\left(y_{i}, F_{m-1}\left(x_{i}\right)+h\left(x_{i}\right)\right)$

(加入一个模型，要比原来强，例如随机森林就是加入一棵树，要比原来强)
Stacking：聚合多个分类或回归模型（可以分阶段来做）

2、Bagging模型

全称： $b oo t s t r a p$ $a gg re g a t i o n$

就是并行训练一堆分类器

2.1、 $R an d o m$ $F ores t$ 随机森林模型

随机：数据采样随机，特征选择随机
森林：很多个决策树并行放在一起

如果还不知道什么是决策树可以通过这篇文章了解

在这里插入图片描述

构造树模型

在这里插入图片描述

由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样

之所以要进行随机，是要保证泛化能力，如果树都一样，那就没意义了！

随机森林的优势

它能够处理很高维度（ $f e a t u re$ 很多）的数据，并且不用做特征选择
在训练完后，它能够给出哪些 $f e a t u re$ 比较重要
容易做成并行化方法，速度比较快
可以进行可视化展示，便于分析

2.2、 $K NN$ 模型

在这里插入图片描述

$K NN$ 就不太适合，因为很难去随机让泛化能力变强！

3、 $B oos t in g$ 模型

3.1、 $A d a B oos t$

Adaboost会根据前一次的分类效果调整数据权重

如果某一个数据在这次分错了，那么在下一次我就会给它更大的权重

在这里插入图片描述

每一次切一刀,最终合在一起,弱分类器这就升级了.

3.2、 $xg b oos t$

$XGB oos t$ 是陈天奇等人开发的一个开源机器学习项目，高效地实现了 $GB D T$ 算法并进行了算法和工程上的许多改进，被广泛应用在 $K a gg l e$ 竞赛及其他许多机器学习竞赛中并取得了不错的成绩。

说到 $XGB oos t$ ，不得不提 $GB D T (G r a d i e n t$ $B oos t in g$ $Dec i s i o n$ $T ree)$ 。因为 $XGB oos t$ 本质上还是一个 $GB D T$ ，但是力争把速度和效率发挥到极致，所以叫 $X (E x t re m e) GB oos t e d$ 。包括前面说过，两者都是 $b oos t in g$ 方法。

$XGB oos t$ 的核心算法思想不难，基本就是：

不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数 $f (x)$ ，去拟合上次预测的残差。
当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数
最后只需要将每棵树对应的分数加起来就是该样本的预测值。

更多 $xg b oos t$ 内容请看终于有人说清楚了–XGBoost算法

4、 $St a c kin g$ 模型

堆叠：很暴力，拿来一堆直接上（各种分类器都来了）

可以堆叠各种各样的分类器（ $K NN, S V M, RF$ 等等）

分阶段：第一阶段得出各自结果，第二阶段再用前一阶段结果训练

堆叠在一起确实能使得准确率提升，但是速度是个问题

参考文章

https://www.cnblogs.com/mantch/p/11164221.html

MrNeoJeep

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
集成算法简介

集成学习（EnsemblelearningEnsemblelearning）的目的是让机器学习的的效果更好，一个不行，就多个一起。常用的有三种方式Bagging：训练多个分类器取平均fx1M∑m1Mfmxfx1/Mm1∑MfmxBoosting：从弱学习器开始加强，通过加权来进行训练FmxFm−1xargmin⁡h∑i1nLyiFm−1xihx。
复制链接

扫一扫