集成学习专栏——集成学习概述

最新推荐文章于 2021-12-08 21:30:30 发布

修_远

最新推荐文章于 2021-12-08 21:30:30 发布

阅读量237

点赞数 2

分类专栏：集成学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43340801/article/details/98306366

版权

集成学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

声明：

author:修远

此系列专栏为Datawhale下开源项目《李宏毅机器学习》集成学习的补充内容。作者水平有限，还望学习者批评指正。

1.目录

github链接
集成学习概述
集成学习主要思想
集成学习主要组合策略
为什么要进行集成学习

2.github链接

在李宏毅老师的集成学习课程中，集成学习这个名词只是带过了一下。这篇博客主要讲解我个人课下对集成学习的理解。

github链接：https://github.com/datawhalechina/leeml-notes

集成学习在线阅读地址：https://datawhalechina.github.io/leeml-notes/#/chapter38/chapter38

3.集成学习概述

集成学习是一个通过组合多个模型(分类器或者回归其)来减少泛化误差的技术。其原理是单独训练数个不同的模型，然后让多个模型通过一定的组合策略，最终形成一个强学习器。这是一个在机器学习中普遍应用的被称作model averaging(模型平均) 的策略

正如李宏毅老师在课堂中说的那样：Ensemble的方法就是一种团队合作，集合在一起发挥更强大的功能。
在这里插入图片描述

4.集成学习主要思想

Bagging
Boosting
Stacking

5.集成学习的组合策略

前面说到：集成学习是让多个模型通过一定的组合策略，接下来我们就对组合策略进行。假设集合包含T个学习器 $h_1,h_2,...h_T)$

5.1平均法(回归问题)

对于数值类的回归预测问题，通常使用的结合策略是平均法。

简单平均：

$H(x)=\frac{1}{T}\sum_{i=1}^Th_i(x)$

加权平均：

$H(x)=\sum_{i=1}^T w_ih_i(x)$

可以看到Bagging采用的是简单平均法，而Boosting采样的是加权平均。

5.2投票法(分类问题)

对于离散型的分类问题，通常使用的是投票法。假设预测类别为 $c_1,c_2,...c_k)$ ，T个弱学习器的预测结果为 $h_1(x),h_2(x),...h_T(x)$

5.2.1相对多数投票法

相对多数投票法，在T个弱学习器的预测结果中，选择数量最多的类别作为最终的分类类别，如果不止一个类别获得最高票，则随机选择一个做最终类别。

$H(x)=c_{argmax_j}\sum_{i=1}^T h_i^j(x)$

5.2.2绝对多数投票法

在相对多数投票法的基础上，不光要求获得最高票，还要求票过半数。

$H(x)=\left\{\begin{matrix} c_j &if, \sum_{i=1}^T h_i^j(x)>0.5\sum_{k=1}N \sum_{i=1}^Th_i^k (x) \\ reject & otherwise \end{matrix}\right.$

5.2.3加权投票法

每个弱学习器的分类票数要乘以一个权重，最终将各个类别的加权票数求和，最大的值对应的类别为最终类别。

$H(x)=c_{argmax_j}\sum_{i=1}^Tw_ih_i^j(x)$

6.为什么进行集成学习

弱分类器间存在一定的差异性，这会导致分类的边界不同，也就是说可能存在错误。那么将多个弱分类器合并后，就可以得到更加合理的边界，减少整体的错误率，实现更好的效果
对于数据集过大或者过小，可以分别进行划分和有放回的操作产生不同的数据子集，然后使用数据子集训练不同的分类器，最终再合并成为一个大的分类器
如果数据的划分边界过于复杂，使用线性模型很难描述情况，那么可以训练多个模型，然后再进行模型的融合

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。