感知机模型
感知机判别模型
f
(
x
)
=
sign
(
w
⋅
x
+
b
)
,
sign
(
x
)
=
{
+
1
,
x
≥
0
−
1
,
x
<
0
f( x)=\text{sign}( w\cdot x+b), \quad\text{sign}(x)= \begin{cases} +1,&x\geq0\\ -1,&x\lt0 \end{cases}
f(x)=sign(w⋅x+b),sign(x)={+1,−1,x≥0x<0
其中
w
w
w称为权值向量,
b
b
b称为权值偏置。
感知机损失函数
选取误分类点到超平面的总距离作为损失函数,M表示误分类样本集,则:
L
(
w
,
b
)
=
∑
(
x
,
y
)
∈
M
1
∣
∣
w
∣
∣
∣
w
⋅
x
+
b
∣
=
−
1
∣
∣
w
∣
∣
∑
(
x
,
y
)
∈
M
y
(
w
⋅
x
+
b
)
≃
−
∑
(
x
,
y
)
∈
M
y
(
w
⋅
x
+
b
)
L( w,b) = \sum_{( x,y)\in M}\frac{1}{|| w||}| w\cdot x+b|= -\frac{1}{|| w||}\sum_{( x,y)\in M}y( w\cdot x+b)\simeq-\sum_{( x,y)\in M}y( w\cdot x+b)
L(w,b)=(x,y)∈M∑∣∣w∣∣1∣w⋅x+b∣=−∣∣w∣∣1(x,y)∈M∑y(w⋅x+b)≃−(x,y)∈M∑y(w⋅x+b)
误分类样本始终满足
−
y
(
w
⋅
x
+
b
)
>
0
-y( w\cdot x+b)>0
−y(w⋅x+b)>0。
感知机训练
误分类样本集为M,目标函数
L
(
w
,
b
)
=
−
∑
x
∈
M
y
(
w
⋅
x
+
b
)
=
−
∑
x
y
(
w
^
⋅
x
^
)
,
w
^
=
(
w
,
b
)
,
x
^
=
(
x
,
1
)
⊤
L( w,b)=-\sum_{x\in M}y( w\cdot x+b)=-\sum_xy(\hat w\cdot\hat x),\quad \hat w=(w, b),\ \hat x=( x,1)^\top
L(w,b)=−x∈M∑y(w⋅x+b)=−x∑y(w^⋅x^),w^=(w,b), x^=(x,1)⊤
使用随机梯度下降,得更新公式
w
n
+
1
=
w
n
+
η
y
i
x
i
,
b
n
+
1
=
b
n
+
η
y
i
⟹
w
^
n
+
1
=
w
^
n
+
η
y
i
x
^
i
w_{n+1} = w_n + \eta y_i x_i,\quad b_{n+1}=b_n+\eta y_i \implies \hat w_{n+1}=\hat w_{n}+\eta y_i\hat x_i
wn+1=wn+ηyixi,bn+1=bn+ηyi⟹w^n+1=w^n+ηyix^i
感知机收敛性
采用梯度下降法,极小化损失函数,若样本集线性可分,最终损失函数值为0(模型收敛)。
若模型
w
^
o
p
t
\hat w_{opt}
w^opt,
∣
∣
w
^
o
p
t
∣
∣
=
1
||\hat w_{opt}||=1
∣∣w^opt∣∣=1,能完全正确划分数据集,模型参数初值
w
^
0
=
0
\hat w_0=0
w^0=0,令
γ
=
min
x
y
(
w
^
o
p
t
⋅
x
^
)
\gamma=\min_{x} y(\hat w_{opt}\cdot \hat x)
γ=minxy(w^opt⋅x^),
R
=
max
x
∣
∣
x
∣
∣
R=\max_x ||x||
R=maxx∣∣x∣∣,则
w
^
k
⋅
w
^
o
p
t
=
w
^
k
−
1
⋅
w
^
o
p
t
+
η
y
i
x
^
i
⋅
w
^
o
p
t
≥
w
^
k
−
1
⋅
w
^
o
p
t
+
η
γ
≥
.
.
.
≥
k
η
γ
\hat w_{k}\cdot \hat w_{opt}=\hat w_{k-1}\cdot \hat w_{opt}+\eta y_i\hat x_i \cdot \hat w_{opt}\geq \hat w_{k-1}\cdot \hat w_{opt}+\eta\gamma\geq ...\geq k\eta\gamma
w^k⋅w^opt=w^k−1⋅w^opt+ηyix^i⋅w^opt≥w^k−1⋅w^opt+ηγ≥...≥kηγ
且
∣
∣
w
^
k
∣
∣
2
=
∣
∣
w
^
k
−
1
∣
∣
2
+
2
η
y
i
w
^
k
−
1
⋅
x
^
i
+
∣
∣
x
^
i
∣
∣
2
≤
∣
∣
w
^
k
−
1
∣
∣
2
+
η
2
R
2
≤
.
.
.
≤
k
η
2
R
2
||\hat w_k||^2=||\hat w_{k-1}||^2+2\eta y_i\hat w_{k-1}\cdot\hat x_i+||\hat x_i||^2\leq ||\hat w_{k-1}||^2+\eta^2R^2\leq...\leq k\eta^2R^2
∣∣w^k∣∣2=∣∣w^k−1∣∣2+2ηyiw^k−1⋅x^i+∣∣x^i∣∣2≤∣∣w^k−1∣∣2+η2R2≤...≤kη2R2
因此
k
η
γ
≤
w
^
k
⋅
w
^
o
p
t
≤
∣
∣
w
^
k
∣
∣
∣
∣
w
^
o
p
t
∣
∣
=
∣
∣
w
^
k
∣
∣
≤
k
η
R
⟹
k
≤
(
R
γ
)
2
k\eta\gamma \leq \hat w_k\cdot \hat w_{opt}\leq||\hat w_k||\ ||\hat w_{opt}||=||\hat w_k||\leq \sqrt{k}\eta R \implies k \leq \left(\frac{R}{\gamma}\right)^2
kηγ≤w^k⋅w^opt≤∣∣w^k∣∣ ∣∣w^opt∣∣=∣∣w^k∣∣≤kηR⟹k≤(γR)2
可见,感知机最多迭代k次收敛,感知机模型
f
(
x
)
=
sign
(
w
⋅
x
+
b
)
f( x)=\text{sign}( w\cdot x+b)
f(x)=sign(w⋅x+b)的训练过程
- 初始化 w w w和 b b b;
- 选取任意错分样本 ( x i , y i ) ( x_i,y_i) (xi,yi),更新参数(使超平面超错分样本移动),重复此步骤直至无错分样本;
对偶学习
感知机对偶学习的基本思想是,将原参数表示为实例线性组合的形式,通过求解其系数进而求解原参数。由随机梯度下降的更新公式可知,若 参数初值为0,最终模型参数为
w
=
∑
i
n
i
η
y
i
x
i
=
∑
i
α
i
y
i
x
i
w=\sum_i n_i\eta y_i x_i=\sum_i\alpha_iy_i x_i
w=i∑niηyixi=i∑αiyixi
式中, n i n_i ni为样本 ( x i , y i ) ( x_i, y_i) (xi,yi)被误分类的次数。
感知机模型 f ( x ) = sign ( ∑ i α i y i x i ⋅ x + b ) f( x)=\text{sign}\big(\sum_i\alpha_iy_i x_i\cdot x+b\big) f(x)=sign(∑iαiyixi⋅x+b),对偶学习过程:
- 初始化 α \alpha α和 b b b均为0;
- 选取任意错分样本
(
x
i
,
y
i
)
( x_i,y_i)
(xi,yi),更新参数,重复此步骤直至无错分样本;
α i = α i + η , b = b + η y i \alpha_{i}=\alpha_i+\eta,\quad b=b+\eta y_i αi=αi+η,b=b+ηyi
对偶形式中,训练实例仅以內积形式出现,计算和存储方便。