统计学习方法——第8章 提升方法(个人笔记)

本文介绍了统计学习方法中的提升方法,特别是AdaBoost算法。 AdaBoost通过结合多个弱分类器构建强分类器,其基本思路是通过迭代调整样本权重,使得弱分类器在难分类样本上表现更好。算法包括初始化权重、训练弱分类器、计算误差率和权重更新等步骤,最后形成分类器的线性组合。文中还展示了AdaBoost的工作流程图,帮助理解其实现过程。
摘要由CSDN通过智能技术生成

统计学习方法——第8章 提升方法(个人笔记)

参考《统计学习方法》(第二版)李航

8.1 提升方法AdaBoost算法

8.1.1 提升方法的基本思路

基本思想:对于一个复杂任务,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。

最具代表性的是AdaBoost算法。

对于分类问题,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确地分类规则(强分类器)容易的多。提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。

8.1.2 AdaBoost算法

算法 8.1(AdaBoost)

输入:训练数据集T=\left \{ (x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N) \right \},y_i=\left \{ -1,+1 \right \};

输出:最终分类器G(x)

(1)初始化训练数据的权值分布

D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}),w_{1i}=\frac{1}{N},i=1,\cdots,N

(2)对m=1,\cdots,M,M个分类器

   (a)对使用具有权值分布D_m的训练数据集学习,得到基本分类器。

G_m(x):\left \{ -1,+1 \right \}

   (b)计算G_m(x)在训练数据集上的分类误差率

e_m=\sum_{i=1}^{N}P(G_m(x_i)\neq y_i)=\sum_{i=1}^{N}w_{mi}I(G_m(x_i)\neq y_i)

   (c)计算G_m(x)的系数

\alpha_m=\frac{1}{2}\log \frac{1-e_m}{e_m}

   (d)更新训练数据集的权值分布

D_{m+1}=(w_{m+1,1},\cdots,w_{m+1,N})

w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp(-\alpha_my_iG_m(x_i)),i=1,\cdots,N

Z_m是规范化因子

Z_m=\sum_{i=1}^{N}w_{mi}\exp(-\alpha_my_iG_m(x_i))

(3)构建基本分类器的线性组合

f(x)=\sum_{m=1}^{M}\alpha_mG_m(x)

得到最终分类器

G(x)=sign(f(x)) \\ =sign(\sum_{m=1}^{M}\alpha_mG_m(x))

8.1.3 AdaBoost的例子

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值