AdaBoost学习笔记 概述

简要介绍

核心思想在于:

         是一种投票算法,使用多个弱分类器相结合达到强分类的效果(三个臭皮匠顶个诸葛亮),常用的弱分类器是单层决策树。使用迭代的方式逐步对分类错误的数据进行优化分类处理。

 

流程:

数据组成为: attr1,attr2,attr3....Label,即属性与标签

 

1. 求最优分类器(最小错误率)

a)For(attri a  in  attrlist){

         StepSize=Range(attri)/Step;=(maxValue-minValue)/Step  (确定要分多少步,以及步长多少,这是对数值型的操作,那么对类别呢?如果是二值型的类别是好做的,多值且相互独立就不好做了)

    b)For(inti=0;i<Step;i++){

         //一个一个边界的遍历

         c)for使用lt或者gt去对当前边界(minvalue+i*StepSize)做分类,记录分类加权错误率;对比最小错误率minerror并更新

   }

}

 

错误率是指:error=错误数据条数/数据总数

加权错误率是: 对于每条数据都有一个权重的,这个权重在第一次迭代的时候是相等的。有m条数据的情况下,比方说每条数据的权重是1/m 。下次迭代的时候更新权重。

 

使用三个for循环,对从每个属性中取出最好的边界用最适合的表达式(lt,gt)去分类,求出最小错误率的分类器。

 

2. 迭代过程

迭代的过程很有意思,迭代过程降低了上一步已分类正确的数据的比重,提高了分类错误数据的比重。而在计算错误率时是使用的加权错误率,因此也就是说本次迭代相较于上一次迭代是在强化错误数据的分类效果(很好理解,不同属性attr对于可以对数据的分类侧重点不同)。


引用图例  AdaBoosting的核心思想(不同划分的复合)

 

 

计算公式讨论

 

1.       数据权重计算:


由于求最优分类器使用的是加权错误率,因此二次迭代相较于上一次更加侧重于划分错误分类的数据。

2.       加权错误率计算:


(Error error) 代表上一次迭代错了,本次迭代又错了,(right error)代表上一次迭代正确,本次迭代错了。由于错误分类的权重Df比Dt大不少,因此实际上Werror_(i+1)的值更加依赖于,上一迭代中错误的数据在本次迭代中划分的效果。也就是说本次迭代中如果将上一次迭代划分错的数据做较好的划分,那么即使本次迭代将部分上一次迭代划分正确的数据划分错,整体造成的错误率也是降低的。很饶人的话,举例:原始权重为1,分错10条,错误率为10*1/(1*10+90*1)=0.1。下一次迭代:Df=2 共10条 ,Dt=0.5 共90条;如果下一次迭代将10条中10条划分正确,90条中16条划分错误。(4*0+16*0.5)/(4*10+90*0.5)=0.094;虽然从条数上看错误的更多了,但是基于权重的错误率降低了。但是同样的也可能存在错误率提高的情况。

3.       分类结果计算:



从权重式子可以看出,如果迭代中将上次迭代划分错误的数据再次划分的不怎么样,那么这个迭代器的Werror就会较大,相应的权重a就会较小,也就是说这个分类器的价值不高。但是问题来了:从错分类数据的角度看,这种权值叠加式是没什么问题的,但是从被正确划分的数据来看呢?感觉就会有一定的问题。可能存在原本划分正确的,在一下个迭代器中划分错误,但是下一个迭代器的权重值a(i+1)>a(i),那么造成了


这种情况下,虽然说符合可以让划分错误的数据变得划分正确,但是同样的,原本分类正确的数据会被分错。



 

 对于公式的推导需要再去算法原论文中确认

需要进一步研究:

http://blog.csdn.net/dark_scope/article/details/14103983

http://blog.csdn.net/haidao2009/article/details/7514787

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值