集成算法（装袋，随机森林，boosting）

最新推荐文章于 2023-06-05 18:55:22 发布

TKE_aoliao

最新推荐文章于 2023-06-05 18:55:22 发布

阅读量2k

点赞数 2

文章标签：大数据数据挖掘

本文链接：https://blog.csdn.net/surijing/article/details/104992662

版权

集成学习定义

将多个单个学习器集成在一起，使它们共同完成学习任务，已达到提高预测准确率的目的，也称“多分类器系统”
在这里插入图片描述

例：做练习题的时候题目的准确率不高，通过多个学生的答案进行核对，提高题目的准确率

分两大类：

装袋	bagging,随机森林
提升	boosting,adaboost,GBDT,XGBoot

集成学习一般过程

令D表示原始训练数据集，k表示基分类器（基学习器）的个数，Z表示测试数据集。
for i=1 to k do 由D创建训练集Di 由Di创建基分类器Ci
end for
for 每一个测试样本do
C*(x)=Vote(C1(x),C2(x),…,Ck(x)) end for

如何对学习结果进行结合

投票法	对于分类问题的预测。
平均法	对于数值类的回归预测。分为：平均法和加权平均法
学习法	为了解决投票法和平均法误差较大的问题。在弱学习器之后再加一层学习器

集成方法：

一种是使用训练集的不同子集训练得到不同的基分类器。（bagging）
另一种方法是使用同一个训练集的不同属性子集训练得到不同的基分类器。(随机森林)

Bagging：

对训练集有放回地抽取训练样例，从而为每一个基本学习器都构造出一个与训练集相当大小但各不相同的训练集，从而训练出不同的基本学习器；该算法是基于对训练集进行处理的集成方法中最简单、最直观的一种。
算法流程：
1.从大小为n的原始数据集D中独立随机地抽取n’个数据(n’<=n)，形成一个自助数据集；

重复上述过程，产生出K个独立的自助数据集；
利用K个自助数据集训练出k个最优模型；
分类问题：最终的分类结果由这k个最优模型各自的判别结果投票决定；回归问题：对K个模型的值求平均得到最终结果。
另外由于每一个样本被选中的概率相同，因此装袋并不侧重于训练数据集中的任何特定实例。因此对于噪声数据，装袋不太受过分拟合的影响。
关于bagging的一个有必要提及的问题：bagging的代价是不用单棵决策树来做预测，具体哪个变量起到重要作用变得未知，所以bagging改进了预测准确率但损失了解释性。

随机森林

最低0.47元/天解锁文章

TKE_aoliao

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
集成算法（装袋，随机森林，boosting）

集成学习定义将多个单个学习器集成在一起，使它们共同完成学习任务，已达到提高预测准确率的目的，也称“多分类器系统”例：做练习题的时候题目的准确率不高，通过多个学生的答案进行核对，提高题目的准确率分两大类：装袋bagging,随机森林提升boosting,adaboost,GBDT,XGBoot集成学习一般过程令D表示原始训练数据集，k表示基分类器（基学...
复制链接

扫一扫