机器学习中集成学习方法的总结

最新推荐文章于 2023-06-12 21:33:52 发布

slx_share

最新推荐文章于 2023-06-12 21:33:52 发布

阅读量1.3k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slx_share/article/details/82781964

版权

机器学习专栏收录该内容

43 篇文章 17 订阅

订阅专栏

集成学习(又称模型融合)就是结合若干个体分类器(基学习器)进行综合预测，各个个体学习器通常是弱学习器。集成学习相较于个体学习在预测准确率以及稳定性上都有很大的提高。

基本概念

弱学习器：泛化性能略优于随机猜测的学习器。直观地理解为预测准确率略高于50%。
同质学习：个体学习器是采用同类型的模型，亦称基学习器。例如随机森林中个体学习器都是决策树。
异质学习：个体学习器采用不同类型的模型，例如决策树与支持向量机结合。

分类

集成学习方法有“串行”以及“并行”两种方式。Boosting采用“串行”的方式，Bagging采用“并行”的方式。

Boosting：逐步学习个体学习器，后一个学习的目标target建立在前面模型的基础上。例如提升树，后一个模型的target是前面所有模型的预测残差。
Bagging：并行学习个体学习器，个体学习器之间彼此独立地进行学习。例如随机森林，从原样本中有放回抽取，构成多个训练样本，依此训练多个决策树。

为什么有效？

Dietterich对此进行了直观分析。
单个学习器产生预测误差的原因：

统计问题：存在多个假设在训练数据集上的误差接近，但是单个学习器仅从假设空间中挑出一个假设，可能误选导致假设不能覆盖未知数据。
计算问题：学习算法通常采用启发式，难以获取全局最优解。
表示问题：选取的模型不合理，假设空间不能覆盖真实的假设，学习效果与学习目标相差较大。

(图片摘自周志华《机器学习》)

集成学习对此进行改进：

统计上：保留多个与训练数据拟合较好的假设，综合预测可覆盖更多的未知数据。
计算上：多个个体学习器都有各自的局部最优解，那么结合起来可在一定程度上相互抵消。
表示上：多个个体学习器联合多个模型，使得表示范围更加广泛。

需要解决的问题

如果构建“好而不同”的个体学习器？

通过上文直观地分析，好的集成学习满足两个条件：

个体学习器预测准确率高。参考各个机器学习模型的学习方法。
个体学习器间差异大。
- 样本扰动：即对不同的个体学习器，尽可能使其输入样本不同
- 特征扰动：随机选取特征，使不同个体学习器输入特征不同
- 输出扰动：随机改变某些输出标记，将总的分类目标拆分成多个目标以方便扰动(例如对输出结果进行编码然后对编码随机扰动)
- 参数扰动：改变个体学习器的超参数

如何有效结合个体学习器的预测结果?

模型融合(blending) 是集成学习中最重要的问题之一，主要研究如何有效地结合个体学习器以提高总体的准确率。有两种融合方式：

均匀融合(uniform blending): 即简单地计算平均值或投票(多数表决)
Stacking: 采用另一个学习器对个体学习器的预测结果进行学习，输出最终的学习结果。通常线性回归模型使用较多，即对个体学习器输出结果加权。

参考资料

周志华《机器学习》

注：如有不当之处，请指正。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

slx_share CSDN认证博客专家 CSDN认证企业博客

码龄7年

59: 原创

9万+: 周排名

168万+: 总排名

32万+: 访问

: 等级

3542: 积分

271: 粉丝

189: 获赞

103: 评论

1696: 收藏

私信

关注

分类专栏

最新评论

机器学习特征工程方法的总结(持续更新……)
CSDN-Ada助手: AI主流的运用是计算机视觉和NLP两个方向，你觉的它们有什么差异么？
数据预处理中常用检验方法汇总以及Python示例
CSDN-Ada助手: 你的文章质量不错，值得学习！但还有一点小瑕疵，具体如下：(1)使用标准目录。
聚类——谱聚类算法以及Python实现
donovan: 请问你的程序都是用tensorflow框架写的吗？我的pttorch框架好像用不了
生成对抗网络(GAN)简介以及Python实现
hhh嘿嘿嘿: 应该是生成网络循环训练，，判别网络容易训练得太好
自编码器、变分自编码器(VAE)简介以及Python实现
httcwr07: 105-108 行改成自己的文件路径，再自己定义训练和测试数据

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。