【机器学习】集成学习

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


集成学习

1.集成学习算法简介

1.1 什么是集成学习

在这里插入图片描述
集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型,各⾃独⽴地学习和作出预 测。这些预测最后结合成组合预测,因此优于任何⼀个单分类的做出预测。

1.2 机器学习的两个核⼼任务
  • 任务⼀:如何优化训练数据 —> 主要⽤于解决⽋拟合问题
  • 任务⼆:如何提升泛化性能 —> 主要⽤于解决过拟合问题
1.3 集成学习中boosting和Bagging

在这里插入图片描述
只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的

2.Bagging和随机森林

2.1 Bagging集成原理

⽬标:把下⾯的圈和⽅块进⾏分类
在这里插入图片描述
实现过程:

  1. 采样不同数据集
    在这里插入图片描述
    2)训练分类器
    在这里插入图片描述
    3)平权投票,获取最终结果
    在这里插入图片描述

4)主要实现过程⼩结
在这里插入图片描述

2.2 随机森林构造过程

在机器学习中,随机森林是⼀个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数⽽定。

随机森林 = Bagging + 决策树
在这里插入图片描述
例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True

随机森林够造过程中的关键步骤(M表示特征数⽬):

1)⼀次随机选出⼀个样本,有放回的抽样,重复N次(有可能出现重复的样本)

2) 随机去选出m个特征, m <<M,建⽴决策树

思考

1.为什么要随机抽样训练集?  
如果不进⾏随机抽样,每棵树的训练集都⼀样,那么最终训练出的树分类结果也是完全⼀样的

2.为什么要有放回地抽样?
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,都是绝对“⽚⾯的”(当然这样说可能不对),也就是说每棵树训练出来都是有很⼤的差异的;⽽随机森 林最后分类取决于多棵树(弱分类器)的投票表决。

2.3 包外估计 (Out-of-Bag Estimate)

在随机森林构造过程中,如果进⾏有放回的抽样,我们会发现,总是有⼀部分样本我们选不到。

  • 这部分数据,占整体数据的⽐重有多⼤呢?

对于任意⼀组数据 (x n, y n) 是包外数据的概率为:1/e。由于基分类器是构建在训练样本的⾃助抽样集上的,只有约 63.2% 原样本集出现在中,⽽剩余的 36.8% 的数据作为包 外数据,可以⽤于基分类器的验证集。

经验证,包外估计是对集成分类器泛化误差的⽆偏估计.

在随机森林算法中数据集属性的重要性、分类器集强度和分类器间相关性计算都依赖于袋外数据。

  • 这部分数据有什么⽤呢?
    • 当基学习器是决策树时,可使⽤包外样本来辅助剪枝 ,或⽤于估计决策树中各结点的后验概率以辅助对零训练样 本结点的处理;
    • 当基学习器是神经⽹络时,可使⽤包外样本来辅助早期停⽌以减⼩过拟合 。

3.Boosting

3.1 什么是boosting

在这里插入图片描述

随着学习的积累从弱到强
简⽽⾔之:每新加⼊⼀个弱学习器,整体能⼒就会得到提升

代表算法:Adaboost,GBDT,XGBoost,LightGBM

3.2 实现过程

1.训练第⼀个学习器在这里插入图片描述
2.调整数据分布
在这里插入图片描述
3.训练第⼆个学习器
在这里插入图片描述
4.再次调整数据分布
在这里插入图片描述
5.依次训练学习器,调整数据分布
在这里插入图片描述

6.整体过程实现
在这里插入图片描述

3.3 bagging集成与boosting集成的区别:
  • 区别⼀:数据⽅⾯
    Bagging:对数据进⾏采样训练;
    Boosting:根据前⼀轮学习结果调整数据的重要性。
  • 区别⼆:投票⽅⾯
    Bagging:所有学习器平权投票;
    Boosting:对学习器进⾏加权投票。
  • 区别三:学习顺序
    Bagging的学习是并⾏的,每个学习器没有依赖关系;
    Boosting学习是串⾏,学习有先后顺序。
  • 区别四:主要作⽤
    Bagging主要⽤于提⾼泛化性能(解决过拟合,也可以说降低⽅差)
    Boosting主要⽤于提⾼训练精度 (解决⽋拟合,也可以说降低偏差)
    在这里插入图片描述
3.4 AdaBoost介绍

步骤⼀:初始化训练数据权重相等,训练第⼀个学习器。

该假设每个训练样本在基分类器的学习中作⽤相同,这⼀假设可以保证第⼀步能够在原始数据上学习基 本分类器H 1 (x)

步骤⼆:AdaBoost反复学习基本分类器,在每⼀轮m = 1, 2, …, M顺次的执⾏下列操作:

(a) 在权值分布为D t 的训练数据上,确定基分类器;
(b) 计算该学习器在训练数据中的错误率:
在这里插入图片描述

(c) 计算该学习器的投票权重:
在这里插入图片描述
(d) 根据投票权重,对训练数据重新赋权
在这里插入图片描述

将下⼀轮学习器的注意⼒集中在错误数据上

重复执⾏a到d步,m次;

步骤三:对m个学习器进⾏加权投票
在这里插入图片描述
关键点剖析

在这里插入图片描述

4.GBDT介绍

GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树,在传统机器学习算法中,GBDT算的上TOP3的算法。 想要理解GBDT的真正意义,那就必须理解GBDT中的Gradient BoostingDecision Tree分别是什么?

4.1 Decision Tree:CART回归树

⾸先,GBDT使⽤的决策树是CART回归树,⽆论是处理回归问题还是⼆分类以及多分类,GBDT使⽤的决策树通通都 是都是CART回归树。

  • 为什么不⽤CART分类树呢?
    因为GBDT每次迭代要拟合的是梯度值,是连续值所以要⽤回归树。

对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。

在分类树中最佳划分点的判别标准是熵或者基尼系数,都是⽤纯度来衡量的,但是在回归树中的样本标签是连续数值, 所以再使⽤熵之类的指标不再合适,取⽽代之的是平⽅误差,它能很好的评判拟合程度。

4.2 Gradient Boosting: 拟合负梯度

梯度提升树(Grandient Boosting)是提升树(Boosting Tree)的⼀种改进算法,所以在讲梯度提升树之前先来说⼀下

提升树。 先来个通俗理解:假如有个⼈30岁,我们⾸先⽤20岁去拟合,发现损失有10岁,这时我们⽤6岁去拟合剩下的损失,发 现差距还有4岁,第三轮我们⽤3岁拟合剩下的差距,差距就只有⼀岁了。如果我们的迭代轮数还没有完,可以继续迭代 下⾯,每⼀轮迭代,拟合的岁数误差都会减⼩。最后将每次拟合的岁数加起来便是模型输出的结果。
提升树算法:
在这里插入图片描述

4.3 GBDT算法原理

将Decision Tree和Gradient Boosting介绍完了,下⾯将这两部分组合在⼀起就是我们的GBDT了。
(1)初始化弱学习器
(2)对m=1,2,…,M有:

  • (a)对每个样本i=1,2,…,N,计算负梯度,即残差
  • (b)将上步得到的残差作为样本新的真实值,并将数据作为下棵树的训练数据,得到⼀颗新的回归树
  • (c)对叶⼦区域j=1,2,…J计算最佳拟合值
  • (d)更新强学习器

(3)得到最终学习器

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值