本章在数学上的内容较少,下面主要是讲述思想
弱小的模型集合起来也可以变得足够强大
有时候可以是所有弱小模型
gt
g
t
,对其来一个权相同的投票模型,即
G(x)=sign(∑Tt=11⋅gt(x))
G
(
x
)
=
s
i
g
n
(
∑
t
=
1
T
1
⋅
g
t
(
x
)
)
,类似的还有不同的权重,以及更加广义的
G(x)=sign(∑Tt=1qt(x)⋅gt(x))
G
(
x
)
=
s
i
g
n
(
∑
t
=
1
T
q
t
(
x
)
⋅
g
t
(
x
)
)
下面给出两个例子
第一种是左图,实际上这里弱小的 gt g t 是指纵切和横切,但是这两种切都不能将图的点完美分开,但是合起来的话却可以,这里的集成模型起到的作用是feature transform→让模型更具有powerful
第二种是右图,假设有很多条线即 gt g t 可以分开这些点,那么这里的集成模型相当于是取了平均→regularization的作用
之前学ML的时候transform是踩油门,让模型有powerful,而regularization是踩刹车,不要让模型过于强导致overfit,aggregation似乎有两者兼备!
所以最关键的一步,是产生足够多的不同的有效的
gt
g
t
一般地方法有:
1.构造不同的模型获得
g1,g2...
g
1
,
g
2
.
.
.
,即如SVM,LR或者若干模型都跑一遍
2.通过不同的参数获得,比如由GD中不同的步长
3.通过不同的初始值,如PLA的初始位置
4.通过不同的数据获得,如bootstrap类的方法(下一节会重点提到)