集成学习介绍

1.介绍

(1)在机器学习中可以有弱学习器,强学习器,在集成学习中,我们会训练一堆弱学习器(想要做集成学习,就要有一堆弱学习器),组合成为一个强学习器,然后我们用强学习器做预测。

(2)这些弱学习器也是有一定正确率的,不能都是一些不堪用的模型。弱学习器我们用g(x),强学习器我们用G(x)

(3)集成学习是一个宏观的概念,如果弱学习器不是基于决策树而是基于其他的基础算法也是可以,但是基于决策树做集成学习是我们比较常用的算法。

DT >> RandomForst,Adaboost,GBDT,XGBoost

2.分类

单颗决策树:选择比重最大的。

随机森林:所有的投票少数服从多数(聚合模型,Bagging训练弱学习器)

基于随机森林做分类任务1*gt(x)的1代表每个样本的权重都是1,gt(x)代表每个弱学习器的结果,最终每个样本加和在一起,决定最终结果是正例还是负例。

基于随机森林做回归任务把每个弱学习器给出的结果加和求平均。

Adaboost:权重高的多给几票,权重低的少给几票

每个弱学习器所给的权重是不一样的。(加权求和)

3.集成学习的思路

Bagging

bagging是训练单颗决策树的方法,可以在多台机器上并行处理。

权重都为1。

不同的决策树对同样的数据进行抽样,有放回的对原始数据集进行均匀抽样(Booststrap)

基于Bagging衍生出来的集成学习有random forest。

Boosting

Boosting和bagging不一样

(1)每个弱学习器有不一样的权重,在聚合的时候做了加权求和。

(2)训练第一颗决策树,调整训练集后再训练第二课树,训练完第二棵树后整合前两颗树在调整数据集训练第三棵树,以此类推..

(3)会有依赖,后面的决策树必须依赖前面训练好的决策树(串行)

(4)基于Boosting衍生出来的机器学习有adaboost,GDBT,Xgboost

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值