艰难的秋招机器学习笔记集成学习、随机森林、Adaboost、提升树、GBDT、XGBoost

最新推荐文章于 2024-07-08 17:35:49 发布

schdut

最新推荐文章于 2024-07-08 17:35:49 发布

阅读量297

点赞数

分类专栏：默认机器学习文章标签：机器学习秋招

本文链接：https://blog.csdn.net/shengchaohua163/article/details/113563442

版权

文章目录

集成学习
- 介绍
- Bagging和Boosting的区别
随机森林
Adaboost
- 介绍
- 描述
提升树
- 介绍
- 描述
GBDT
- 介绍
- 描述
- 如何做多分类
- 损失函数
- - 分类
  - 回归
XGBoost
- 介绍
- 前提
- 推导
- 优点
- 参数

集成学习

【机器学习】模型融合方法概述

【机器学习】集成学习之stacking

介绍

集成学习（ensemble learning）通过构建并结合多个弱学习器（也叫基学习器）来完成机器学习任务，提升单个学习器的性能。

集成学习主要三个类别：Bagging，Boosting和Stacking。Bagging有随机森林算法，Boosting有Adaboost、GBDT等算法，Stacking没有具体的算法，只是把多种算法融合在一起。

Bagging使用了有放回抽样方法，每次从训练数据抽取N个样本（N是训练数据的大小），训练一个基学习器，最后综合多个基学习器得到最终的模型。Bagging中的基学习器可以并行训练，彼此之间没有依赖关系。

Boosting也可以称为提升方法，实际采用加法模型（基学习器的线性组合）与前向分步算法。Boosting会初始化一个先验模型作为当前模型。根据训练数据的权值或者根据训练数据和当前模型的残差训练一个基学习器，并将这个基学习器添加到当前模型中，下一轮会根据训练数据和更新后的模型再训练一个基学习器。所以，Boosting中的基学习器是相互依赖的，只能串行训练。

Stacking是一种可以把多种算法融合在一起的集成方法，也称为模型融合。给定训练集和测试集，选择一个模型，比如逻辑回归，对训练集进行K折交叉验证，因此可以训练K个逻辑回归模型。对于每个模型，

需要对对应的验证集进行预测，然后把所有验证集的预测结果叠加起来，可以得到一个列向量，长度等于训练集的大小。该向量可以看作训练集的一个新的特征。
需要对预测集进行预测，然后把测试集的预测结果相加并求平均值，长度等于测试集的大小。该向量可以看作测试集的特征。

接下来可以选择参数不同的逻辑回归模型或者选择其他模型，再生成多个新的特征。

最后，在新的训练集进行训练一个算法，并对新的测试集进行预测。

Stacking过程如下图所示：
在这里插入图片描述

Bagging和Boosting的区别

Bagging选择不稳定的、方差大的基学习器，比如决策树和神经网络，不可以选线性模型；Boosting方法选择拟合能力强的基学习器，比如决策树和线性学习器。

从方差和偏差的角度看，Bagging方法主要关注降低方差，Boosting方法主要关注降低偏差。但是在GBDT的实现中，也可以使用数据和特征抽样方法来降低方差。

Boosting降低偏差比较容易理解，每次对当前模型在训练数据上的预测值与真实值的残差拟合一棵树，使训练误差越来越小。

Bagging降低方差不太好理解。Bagging中的每个基学习器在不完全相同的数据集上训练，基学习器之间的方差比较大。但是，基学习器的效果是优于随机的，而且每个学习器的误差有一定独立性。通过集成所有基学习器的预测结果，可以使模型的预测结果趋于正确值，降低了模型的方差，提高了模型的泛化能力。

随机森林

随机森林（Random Forest）是一种Bagging集成算法。它对Bagging进行了改进，选择CART决策树作为基学习器；还有在分裂结点时，随机抽取一部分特征并选择其中最好的特征。

Adaboost

介绍

Adaboost是一种Boosting集成算法。它为每一个样本分配了一个权重，根据训练数据和对应的权重训练一个基学习器，计算该学习器的加权分类误差率，然后根据分类误差率调整每个样本的权重：减小分类正确的样本的权重，增大分类错误的样本的权重。Adaboost依次训练多个基学习器，最终组合所有学习器为最终的模型。

描述

训练数据是二类的，目标值是-1或+1。训练集大小为N，每个样本的初始权重为1/N，权重之和为1。

需要训练多个基学习器，对于一个基学习器：

根据当前的训练数据和权重，训练一个基学习器 $G_m$ ，使该学习器的分类误差率最低。分类误差率是分类错误的数据的权重之和。
假设分类误差率为 $e_m$ ，计算该基学习器的系数 $\alpha_m=\frac{1}{2}ln\frac{1-e_m}{e_m}$ 。分类正确的样本的权重乘以 $e^{-\alpha_m}$ ，分类错误的样本的权重乘以 $e^{\alpha_m}$ ，然后对所有样本的权重进行归一化，保证权重之和为1。
因为分类误差率小于二分之一，所以 $\alpha_m>0$ ，分类正确的样本权重减小，分类错误的样本权重增大。