集成学习模型——boosting/bagging

最新推荐文章于 2024-07-05 14:52:19 发布

jiayalu

最新推荐文章于 2024-07-05 14:52:19 发布

阅读量781

点赞数

分类专栏：算法模型

本文链接：https://blog.csdn.net/jiayalu/article/details/101535022

版权

本文深入探讨了集成学习中的三种重要方法：Bagging通过降低模型方差提高稳定性，Boosting通过减少模型偏差提升预测精度。文章详细介绍了Adaboost、GBDT（梯度提升决策树）以及随机森林，包括它们的工作原理、优缺点及应用，如随机森林的推广——extra trees、Totally Random Trees Embedding和Isolation Forest。

摘要由CSDN通过智能技术生成

集成学习

Bagging

降低模型的方差

Boosting

降低模型的偏差
在这里插入图片描述

步骤：

1）、初始化训练数据权重 1/N
2）、计算弱分类器的误差，以及弱分类器的权重（以分类为题为例）
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J5HI0IpH-1569566833049)(en-resource://database/535:1)]@w=600[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K7ESXAtx-1569566833050)(en-resource://database/537:1)]@w=200
3）、更新数据权重：增加被误分类数据的权重，减小正确分类数据的权重
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Dy3lQPGu-1569566833051)(en-resource://database/539:1)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KsFafXqW-1569566833052)(en-resource://database/541:1)]
4）、最终的分类结果：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYrM0JTh-1569566833053)(en-resource://database/543:1)]
Boosting系列算法里最著名算法主要有AdaBoost算法和提升树(boosting tree)系列算法。提升树系列算法里面应用最广泛的是梯度提升树(Gradient Boosting Tree)。

随机森林（Random Forest，RF）

Bagging，有放回的随机采样，根据大数定律，样本中会有1/e~0.368的数据会不被采到，这些数据被称为袋外数据（out of bag, OOB），可以用这些数据来检测模型的泛化能力。弱分类器常用的模型：决策树和神经网络

Bagging模型的改进

1、CART决策树作为弱学习器
2、CART最优特征的选择进行了改进，不是基于所有的n个样本特征中选择最优的特征划分左右子树，而是随机的选择部分样本特征

随机森林的推广

1、extra trees

extra trees是RF的一个变种, 原理几乎和RF一模一样，仅有区别有：　　　
1）对于每个决策树的训练集，RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集，而ext

最低0.47元/天解锁文章

jiayalu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
集成学习模型——boosting/bagging

集成学习文章目录集成学习BaggingBoosting随机森林（Random Forest，RF）随机森林的推广1、extra trees2、Totally Random Trees Embedding（数据高维映射）3、 Isolation Forest随机森林的优缺点：优点：缺点：Adaboost1、**分类问题**2、**回归问题**：3、分类问题中的损失函数优化4、Adaboost优缺点...
复制链接

扫一扫