集成模型思想篇:从bagging到RF,从boosting到AdaBoost、BDT→GBDT→XGBOOST→LGBM,一步步理解并记忆

本文主要记录和分享个人对集成学习模型学习后的一些总结,略去严格的数学推导过程,重点在于阐述各个不同模型的思想、关系和异同,方便理解和记忆(在决策树单模型已了解的基础上)

------ 集成模型就是认为一个机器学习器的学习能力(包括学习方向、学习范围)都是单一有限的,为了加强学习能力,可以把很多个同样的学习器对同一数据集进行学习后的结果进行加权,得到的一个平均结果作为最终结果。这个最终结果综合了各个学习器的学习能力,优劣互补、互相牵制,再提升学习能力的同时避免了单个学习器可能产生较大偏差而带来的影响。
------这种思想就和比赛中找很多个评委来对同一个参赛者进行打分然后取平均分作为最终结果的目的是一样的。
集成模型分为两大不同的做法,这两个做法分别称为 bagging和boosting,以下就展开来说说它们的构造思想和特点

一、bagging和boosting

bagging
所有基学习器在学习的时候互相独立,各学各的,互不影响,每个基学习器学习完毕后再对结果进行某种加权平均。就好像一个队伍参加创作比赛,每个队员都互不联系、独立完成作品,提交前再把所有作品都拿出来讨论一下,综合各个人的优点,汇总出总作品然后提交。
bagging 基本上只有一个模型,那就是随机森林-Random Forest,简称RF

boosting
这种集成方法中,各个基学习器都是有一定关联的,这种关联表述为:第一个学习器学习后,通过某种指标评判这个学习器的不足(这里的不足就是指预测值和真实值的差距),第二个学习器只需要学习第一个学习器的不足;以此类推下去,第k个学习器学习的是第k-1个学习器的不足。就好像一个队伍参加创作比赛,第一个队员做出作品后,第二个队员在此基础上改进,第三个队员又在第二个队员改进的基础上继续改进……最终模型是所有队员一步步改进的结果。
boosting 是一个很大的家族,常见的AdaBoost,GBDT、XGBoost、Lgbm。
其中AdaBoost和后面三者区别较大;后面三者十分密切,甚至可以说XGBoost和Lgbm是属于GBDT的。

可以通俗的说,bagging是并联,boosting是串联;不过boosting还需要对两个概念做更深的分析和理解——加法模型、前向分布算法
boosting的方法又叫做提升的方法(后三者都可以叫做提升树模型),其一步步改进的思想就叫做“提升”;在数学式子上,“提升”就是加法模型,也就是将每个模型的结果累加起来(毕竟每个模型都是学习前面的不足,这还算好理解的)要注意的是,加法模型在回归问题中是预测输出值相加,在分类问题就是投票的票数相加了。下面具体讲解加法模型:
设第k个基学习器用f(k)表示,前k个基学习器的累加(综合)结果用F(k)表示,
自然地有:F(k)=f(1)+f(2)+f(3)……f(k),假设我们开始时设定一共用n个基学习器来提升学习,那么F(n)就是最终结果;我们要做的就是在得到F(k)后,如何去预测得出 f(k+1),从而得通过式子F(k+1) =F (k) + f(k+1)算出F(k+1),一直这样迭代下去得到F(n),这种迭代方式做前向分布算法
不同的boosting算法区别就在于它们使用不同的前向分布算法,前向分布算法的核心在于 制定“利用F(k) 去预测f(k+1) ” 的规则,不同的规则对应不同的前向分布算法,这个规则通俗来讲就是如何评价上文所说的“

  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值