boosting家族之综合理论篇

概述

boosting往上了说,是集成学习的分支。往下分,有AdaBoost和GBDT以及xgboost和lightBgm。此文是我这个boosting小白对boosting家族的理论知识的学习的的大致学习记录。

先验知识

先验知识中,线性回归、决策树以及基本的特征工程相关的知识就不赘述了。主要学习下集成学习的来龙去脉。

集成学习

集成学习适合机器学习的几乎所有的领域:回归、分类、推荐、排序等等。
后文中:

1.什么是集成学习?

  • 在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不会这么理想。可能模型A在某个方面变现优于模型B,但模型B又不是处处都表现不好。也就是说:每个弱分类器具备一定的“准确性”,分类器之间具备“差异性”
  • 上面提到的模型A、B常被称为基学习器(注意,基学习器与弱学习器(weak learner)其实并不是同等概念,基学习器范围大于弱学习器)
  • 构建并结合多个学习器来完成学习任务,被称为集成学习。
  • 集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来

2.为什么理论上集成学习效果会更好?

  • 形象的说:集成学习的结果通过投票法(voting)产生,“少数服从多数”。也就是说,假设有5个若学习器,对于啊a,b,c三个事物的分类,分别有四个学习器结果相同,一个不相同。我们假设正确结果掌握在绝大多数“人”手中,那么投票会使得正确率由80%提升到100%
  • 抽象的说:【“西瓜”书P172、P173】
  • 总结:也就是我们常说的“博采众长”。

3.集成学习的思路、核心点、要点

  • 思路:通过迭代地训练一系列的分类器,每个分类器采用的样本的选择方式都和上一轮的学习结果有关。具体是如何关联的,不同的集成学习算法有不同的实现。
  • 集成学习的一个主要假设是:基学习器的误差相互独立。但是这可能吗?同一任务中的不同基学习器的目标是一样的,再次再次它们的误差也不可能相互独立。所以说,事实上每个基学习器的“准确率”和多样性是冲突的。如何产生并结合“好而不同”的基学习器,就是集成学习研究的核心。
    -可通过为每个基学习器拆分相互有一定交叉的子集,使得误差尽量大一些(但是不可完全独立的拆分子集)
  • 要点:
    每个基学习器好于“随机
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值