实用机器学习笔记-第五章-集成学习

最新推荐文章于 2024-09-17 02:13:06 发布

11408考研休息室

最新推荐文章于 2024-09-17 02:13:06 发布

阅读量765

点赞数 2

文章标签：机器学习人工智能爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013551615/article/details/123292569

版权

一、集成学习

1. 统计学习中的衡量模型指标

1.1 偏差：学习到的模型和真实模型之间的位移

1.2 方差：学习到的东西差别有多大

1.3 示意图

请添加图片描述

1.4 偏差-方差公式

泛化误差: $E_d[(y-\hat{f}(x)^2)] = Bias[\hat{f}]^2 + Var[\hat{f}]+\sigma^2$ （偏差平方+方差+误差）

1.5 模型-方差的权衡

一开始模型简单的时候，偏差比较大，模型变复杂，偏差下降
假设数据不变化，模型相对于数据更复杂，过多的关注数据的噪音，方差越来越大，导致过拟合
泛化误差是偏差和方差共同作用的结果

1.6 降低偏差和方差

1.6.1 降低偏差

说明模型不够复杂，使用复杂的模型
- Eg：增加神经网络的隐藏层个数、宽度
Boosting、Stacking

1.6.2 降低方差

说明模型特别复杂，需要一个简单的模型
正则化，使用L1/L2正则化，限制范围
Bagging、Stacking

1.6.3 降低噪音 $\sigma$

提升数据质量

1.6.4 集成学习：使用多个模型结合起来提升预测性能

包含Boosting、Bagging、Stacking

2. Bagging

每一次并行训练n个模型（base learner）
目的：降低方差
输出：回归问题（做平均值），分类问题（投票）
每个模型通过在训练集上进行boostrap采样出一个新数据集来进行训练得到
- 假设训练集有m个样本，在样本里面随机放回的采样m个样本
- 平均每次会有大约$1-\frac{1}{e} $的样本被采样到，剩下的样本(out of bag)用作验证集

2.1 随机森林

使用决策树作为模型（base learner）
通常还会随机采样一些特征列（30%、50%），不会选取所有的列（避免过拟合，增大树之间的差异性）

请添加图片描述

随着树个数n的增加，训练误差、验证误差都下降，误差不会上升
- 原因：降低了方差

2.2 不稳定模型（方差比较大的模型）

Bagging取平均会降低方差，尤其是对不那么稳定的模型（base learner）效果更好
决策树不稳定，线性回归稳定

3. Boosting

将多个弱一点的模型组合在一起变成强的模型
- 目的：降低偏差
顺序的训练n个弱模型
- 每次训练一个弱模型 $h_i$ ,评估他的误差 $\epsilon_t$
- 根据误差 $\epsilon_t$ 重新采样，关注那些预测的不正确的样本
知名算法AdaBoost、Gradient Boosting

3.1 Gradient Boosting

假设在时间t我的模型是 $H_t(x)$ 初始值为0
当t=1
- 在参差数据上 ${(x_i,y_i-H_t(x_i)}_{i=1,...,m}$ ，训练一个新的小一点、弱一些的模型 $F_t(x)$
- 下一个时刻t+1的模型 $H_{t+1}(x) = H_t(x) + \eta F_t(x)$
  - $\eta$ 是学习率，用于正则化我的模型（收缩），防止过拟合
如果采用MSE作为损失函数，那么参差数据 ${(x_i,y_i-H_t(x_i)}_{i=1,...,m} = -\frac{\partial{L}}{\partial{H}}$

3.2 Gradient Boosting Decision Trees（GBDT）

使用决策树作为弱模型
- 用正则化来使得模型变弱，使用一个较小的max_depth、随机采样特征列
顺序训练比较慢，常见的库使用加速算法更快XGBoost、lightGBM

4. Stacking

使用多个不同的模型（base learner）来降低方差
- 把每个learner连接起来，然后做一个线性的组合（可以学习权重参数）
常用于竞赛中
和Bagging区别
- 模型种类不一样。Bagging在不同的数据上训练同样的模型，Stacking在同样的数据上训练不同的模型
- Bagging使用Boostrap采样得到多样性
只加入可以提升模型精度的模型进行stacking，模型不好的不需要加入

请添加图片描述

4.1 多层Stacking

使用多层来降低偏差
- 每一层可以使用不同的模型（base learner）
上面的层都是的输入都是根据下面层的输出结果进行训练的
- 也可以把原始数据也合并进去
多层数据很容易过拟合

请添加图片描述

4.2 减轻多层Stacking导致的过拟合

训练不同层模型的数据不应该是同一份数据
解决办法：把训练集氛围A和B，在L1上用A训练用B做预测，第二层的输入（训练集）就是L1的输出+B
重复K折Bagging
1. 和K折交叉验证一样把数据集分成k份，训练k个模型
2. 把每一个模型在验证集上的输出保留下来，把所有的输出并起来，输入到下一层进行训练
3. 进一步降低我的过拟合：把1、2重复n次，把并起来的三个值进行平均，进一步降低方差，再输入到下一层

4. 集成学习总结

目的是为了降低方差、偏差
模型对比

请添加图片描述

11408考研休息室

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。