第八章集成学习

最新推荐文章于 2021-02-04 22:10:25 发布

T Lai

最新推荐文章于 2021-02-04 22:10:25 发布

阅读量272

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_41784648/article/details/102468920

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

8.1 个体与集成

（1）集成学习： 通过构建并结合多个学习器来完成学习任务，有时也被称作多分类器系统或者基于委员会的学习等。
（2）一般结构： 先产生一组“个体学习器”，再用某种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练中产生，如：C4.5决策树算法、BP神经网络算法等。全由同一种学习器构成集成叫做同质集成，这里面的个体学习器亦叫做“基学习器”；有不同类型的个体学习器构成的集成叫做异质集成。
（3）要获取好的集成，个体学习器应该“好而不同”，既要有准确性又要有多样性，即学习器间要有差异。
在这里插入图片描述
（4）在基学习器的误差相互独立的假设下：集成学习中，随着集成中个体分类器数目T的增大，集成的错误率将指数级下降最终趋于零。
（5）由于在现实任务中，个体学习器是为了解决同一个问题训练出来的，所以他们不相互独立，故如何产生并结合“好而不同”的个体学习器，恰是集成学习研究的核心。

（6）目前集成学习方法大致可分为两大类：

（1）个体学习器间存在强依赖关系、必须串行生成序列化的方法，代表有：Boosting
（2）个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表有：Bagging和随机森林

8.2 Boosting

工作机制： 先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行直到学习器数目达到事先指定的值 $T$ ,最终将这 $T$ 个基学习器进行加权。
代表算法： AdaBoost

8.3 Bagging与随机森林

8.3.1 Bagging：
利用自助采样法从数据集中 $T$ 个包含m个训练数据的采样集，然后基于每个采样训练集训练出一个基学习器，再将这些基学习器进行结合。（自助采样法：给定包含m个样本的数据集，先随机取出一个样本放入采样集中再把该样本放回初始数据集，使得下次采样时样本仍有可能被选中，这样经过m次随机采样操作后就得到了m个样本的采样集）
8.3.2 随机森林：
RF在以决策树为基础学习器构建Bagging集成的基础上，进一步在决策树的训练的过程中引入随机属性选择。传统决策树在进行属性划分时是在当节点的d个属性集中选择一个最优属性作为节点，而在RF中对基决策树的节点则是，先从d个属性中随机选取k个属性然后从这k个属性中选择一个最优属性用于属性划分。当k=d的时候，与传统决策树形同，当k等于1时则是随机选择一个属性进行节点的划分。

8.4 结合策略

8.4.1 平均法
（1）简单平均法：
在这里插入图片描述
（2）加权平均法：

8.4.2 投票法
（1）绝多数投票法
（2）相对多数投票法
（3）加权投票法
8.4.3 学习法
未完待续。。。。。。。。。。。。。。。。。。。。。。。。

参考书籍：《机器学习》周志华

T Lai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第八章集成学习

8.1 个体与集成（1）集成学习：通过构建并结合多个学习器来完成学习任务，有时也被称作多分类器系统或者基于委员会的学习等。（2）一般结构：先产生一组“个体学习器”，再用某种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练中产生，如：C4.5决策树算法、BP神经网络算法等。（3）在基学习器的误差相互独立的假设下：集成学习中，随着集成中个体分类器数目T的增大，集成的错误率将指数级...
复制链接

扫一扫