1.1集成学习——adaboost

问题:
1,如何计算误差率e;
2,如何得到弱学习器权重系数a;
3,如何更新样本权重D;
4,使用何种结合策略;

一,adaboost算法的基本思路
训练集样本:

T=(x1,y1),(x2,y2)....(xm,ym)

训练集的第k个弱学习器的输出权重
D(k)=(wk1,wk2,...wkm);

初始化权重:
w1i=1mi=1,2,3...,m

分类问题
损失函数:
argmina,Gmiexp(yifk(x))
假设:二分类问题,输出为{1,-1}
第一个问题
第k个弱分类器 Gk(x) 在训练机上的加权误差率为:
ek=P(Gk(xi)yi)=i=1mwkiI(Gk(xi)yi)

第二个问题
第k个弱分类器 Gk(x) 的权重系数:
ak=12log1ekek

ek 越大,权重系数 ak 越小,s.t.误差率小的弱分类器权重系数大
第三个问题
跟新样本权重D
wk+1,i=wkiZKexp(akykGk(xi))

其中 Zk 为正则化因子 Zk=mi=1exp(akykGk(xi)).
当分类错误时, ykGk(xi)<0 ,使得 wk+1,i 增大,这符合我们的预期,将分类错误的样本的在下一个分类器中的权重增加
第四个问题
加权平均法:
f(x)=sign(k=1KakGk(x))

回归问题
第一个问题
对于第k个弱学习器,计算在训练集上的最大误差:
Ek=max|yiGk(xi)|;i=1,2,3...m

相对误差:
a,线性误差: eki=|yiGk(xi)|Ek
b,平方误差: eki=(yiGk(xi))2E2k
c,指数误差: eki=1exp(yiGk(xi))Ek
=> ek=mi=1wkieki
第二个问题
弱学习器的权重系数 ak :
ak=ek1ek

第三个问题
跟新样本权重D
wk+1,i=wkiZKa1ekik

其中 Zk 为正则化因子 Zk=mi=1wkia1ekik.
第四个问题
加权平均法:
f(x)=k=1K(1ak)Gk(x)

加入正则项
原本弱学习器的迭代:
fk(x)=fk1(x)+akGk(x)
加入正则项后:
fk(x)=fk1(x)+vakGk(x)
优缺点:
1,作为分类器时,分类精度高
2,在adaboost的框架下,可以使用各种回归模型预测
3,作为简单的二元分类时,结果简单,可理解
缺点:
对异常样本敏感,异常样本可能在迭代中获得较高的权重,影响结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值