机器学习(五)监督学习---集成学习基本概念

集成学习基本了解

 
 
基本概念: 给定我们一个原始训练样本集,我们将其拆分为多份,分别对每份样本集建立一个分类器(一般是弱分类器),分类器之间相互独立,最后再将分类器进行结合,因此 集成学习 有时候被称为 多分类器系统
                                在这里插入图片描述

                在这里插入图片描述


              

1. 为什么需要集成学习

  • 弱分类器:精度不高,比随机分类略好一些,学习起来很方便;
  • 强分类器:精度很高,但是优化起来非常复杂。

       其实强弱是相对来说,能够迅速正确的识别的过程就是强分类器,而容易出错的则是弱分类器。强分类器可以由多个弱分类器组成。而集成学习就能将多个弱分类器转化为一个强分类器。
 

Eg. 举个例子来说明集成学习的好处
              在这里插入图片描述
       上图可以看出,最后的结果采用投票的方式(少数服从多数),所以有13个分类器输出错误,那么最后结果也会出错,因此整个系统的错误率如上式,最后得出错误率为6%;本来个体分类器正确率只有65%,最后结合后正确率达到94%。

 
目前集成学习方法大致可分为两类:

  1. Boosting(十大经典算法之一)
    1.1 Adaboost
    1.2 GBDT(Gradient Boosting Decision Tree)

  2. Bagging
    2.1 Bootstrap Aggregating
    2.2 Random Forest


              

2. Bagging

       给定一个训练数据集,然后对训练样本进行采样,产生多个不同的子集,再从每个子集中训练出一个基学习器。如果采样出来的每个子集都完全不同,说明每个基学习器只用到了一小部分数据,显然得到的基学习器效果不会太好。为解决这个问题,采用相互有交叠的采样子集。

Bagging如何采样: 先随机采样一个样本放入采样集中,取出后再放回到初始数据集,接着进行下次的随机采样,即有放回的采样。
              在这里插入图片描述
              上图的Function可以是线性回归、决策树等等。

对于投票方式也有以下几种:
              在这里插入图片描述

解析:

  • Majority Voting:这五个分类器输出的概率C2最大占3个,所以C2=3;
  • Weighted Majority Voting:这五个分类器输出的概率C2最大占3个,将这3个的权重相加作为结果,所以C2=0.25+0.20+0.10=0.55;
  • Weighted Average:C1=0.30×0.85+0.25×0.3+0.20×0.2+0.10×0.1+0.15×0.1=0.395。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值