1.1集成学习——adaboost

最新推荐文章于 2022-06-14 18:09:41 发布

weeeeeida

最新推荐文章于 2022-06-14 18:09:41 发布

阅读量199

点赞数

问题：
1，如何计算误差率e；
2，如何得到弱学习器权重系数a；
3，如何更新样本权重D；
4，使用何种结合策略；

一，adaboost算法的基本思路
训练集样本：

T = (x 1, y 1), (x 2, y 2) . . . . (x m, y m)

$\begin{eqnarray*} T = {(x_1,y_1),(x_2,y_2)....(x_m,y_m)} \end{eqnarray*}$
训练集的第k个弱学习器的输出权重

D (k) = (w k 1, w k 2, . . . w k m);

$\begin{eqnarray*} D(k) = (w_{k1},w_{k2},...w_{km}); \end{eqnarray*}$
初始化权重：

w 1 i = 1 m ； i = 1, 2, 3..., m

$\begin{eqnarray*} w_{1i} = \frac{1}{m}；i = 1,2,3...,m \end{eqnarray*}$
分类问题
损失函数：

argmin⏟a,G∑miexp(−yifk(x)) $\underbrace{arg min}_{a,G} \sum^m_i exp(-y_if_k(x))$
假设：二分类问题，输出为{1,-1}
第一个问题
第k个弱分类器

Gk(x) $G_k(x)$ 在训练机上的加权误差率为：

e k = P (G k (x i) \neq y i) = \sum i = 1 m w k i I (G k (x i) \neq y i)

$\begin{eqnarray*} e_k = P(G_k(x_i)\neq y_i) = \sum_{i=1}^mw_{ki}I(G_k(x_i) \neq y_i) \end{eqnarray*}$
第二个问题
第k个弱分类器

Gk(x) $G_k(x)$ 的权重系数：

a k = 1 2 l o g 1 - e k e k

$\begin{eqnarray*} a_k = \frac{1}{2}log\frac{1-e_k}{e_k} \end{eqnarray*}$

ek $e_k$ 越大，权重系数

ak $a_k$ 越小，s.t.误差率小的弱分类器权重系数大
第三个问题
跟新样本权重D

w k + 1, i = w k i Z K e x p (- a k y k G k (x i))

$\begin{eqnarray*} w_{k+1,i} = \frac{w_{ki}}{Z_{K}}exp(-a_k y_k G_k(x_i)) \end{eqnarray*}$
其中

Zk $Z_k$ 为正则化因子

Zk=∑mi=1exp(−akykGk(xi)). $Z_k = \sum_{i = 1}^{m}exp(-a_k y_k G_k(x_i)).$
当分类错误时，

ykGk(xi)<0 $y_k G_k(x_i) < 0$ ,使得

wk+1,i $w_{k+1,i}$ 增大，这符合我们的预期，将分类错误的样本的在下一个分类器中的权重增加
第四个问题
加权平均法：

f (x) = s i g n (\sum k = 1 K a k G k (x))

$\begin{eqnarray*} f(x) = sign(\sum_{k=1}^K a_k G_k(x)) \end{eqnarray*}$
回归问题
第一个问题
对于第k个弱学习器，计算在训练集上的最大误差：

E k = m a x | y i - G k (x i) |; i = 1, 2, 3... m

$\begin{eqnarray*} E_k = max|y_i - G_k(x_i)|; i = 1,2,3...m \end{eqnarray*}$
相对误差：
a,线性误差：

eki=|yi−Gk(xi)|Ek $e_{ki} = \frac{|y_i - G_k(x_i)|}{E_k}$
b,平方误差：

eki=(yi−Gk(xi))2E2k $e_{ki} = \frac{(y_i - G_k(x_i))^2}{E_k^2}$
c,指数误差：

eki=1−exp(yi−Gk(xi))Ek $e_{ki} =1 - exp \frac{(y_i - G_k(x_i))}{E_k}$
=>

ek=∑mi=1wkieki $e_k = \sum_{i=1}^mw_{ki}e_{ki}$
第二个问题
弱学习器的权重系数

ak $a_k$ :

a k = e k 1 - e k

$\begin{eqnarray*} a_k = \frac{e_k}{1-e_k} \end{eqnarray*}$
第三个问题
跟新样本权重D

w k + 1, i = w k i Z K a 1 - e k i k

$\begin{eqnarray*} w_{k+1,i} = \frac{w_{ki}}{Z_{K}}a_k^{1-e_{ki}} \end{eqnarray*}$
其中

Zk $Z_k$ 为正则化因子

Zk=∑mi=1wkia1−ekik. $Z_k = \sum_{i = 1}^{m}w_{ki}a_k^{1-e_ki}.$
第四个问题
加权平均法：

f (x) = \sum k = 1 K (1 a k) G k (x)

$\begin{eqnarray*} f(x) = \sum_{k=1}^K (\frac{1}{a_k}) G_k(x) \end{eqnarray*}$
加入正则项
原本弱学习器的迭代：

fk(x)=fk−1(x)+akGk(x) $f_k(x) = f_{k-1}(x) + a_kG_k(x)$
加入正则项后：

fk(x)=fk−1(x)+vakGk(x) $f_k(x) = f_{k-1}(x) + v a_kG_k(x)$
优缺点：
1，作为分类器时，分类精度高
2，在adaboost的框架下，可以使用各种回归模型预测
3，作为简单的二元分类时，结果简单，可理解
缺点：
对异常样本敏感，异常样本可能在迭代中获得较高的权重，影响结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.1集成学习——adaboost

问题： 1，如何计算误差率e； 2，如何得到弱学习器权重系数a； 3，如何更新样本权重D； 4，使用何种结合策略；一，adaboost算法的基本思路训练集样本： T=(x1,y1),(x2,y2)....(xm,ym)\begin{eqnarray*}T = {(x_1,y_1),(x_2,y_2)....(x_m,y_m)}\end{eqnarray*} 训练集的第k个弱
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。