文章目录
1. Linear Separability
对于一个数据集 D \mathcal{D} D,如果PLA能够停下来并且不犯错误,就称这样的 D \mathcal{D} D为线性可分的。
2.PLA Fact: w t \mathbf{w_{t}} wt Gets More Aligned with w f \mathbf{w_{f}} wf
数据集
D
\mathcal{D}
D是线性可分的,等价于存在一个完美的
w
f
\mathbf{w_{f}}
wf,使得
y
n
=
s
i
g
n
(
w
t
T
w
n
)
y_{n}=sign(\mathbf{w_{t}^T}w_{n})
yn=sign(wtTwn)
即
∀
n
∈
[
1
,
N
]
,
y
n
w
f
T
x
n
>
0
\forall n \in [1,N], y_{n}\mathbf{w_{f}^T}\mathbf{x_{n}}>0
∀n∈[1,N],ynwfTxn>0
则对于在第t轮使
w
t
\mathbf{w_{t}}
wt犯错的那个
x
n
(
t
)
\mathbf{x_{n(t)}}
xn(t),有
y n ( t ) w f T x n ( t ) ⩾ m i n ( y n w f T x n ) > 0 y_{n(t)}\mathbf{w_{f}^T}\mathbf{x_{n(t)}} \geqslant min(y_{n}\mathbf{w_{f}^T}\mathbf{x_{n}})>0 yn(t)wfTxn(t)⩾min(ynwfTxn)>0
则
这就说明了 w f T w t \mathbf{w_{f}^T}\mathbf{w_{t}} wfTwt这个内积是随着t的增大而不断增大的。
3.PLA Fact: w t \mathbf{w_{t}} wt Does Not Grow Too Fast
这个算法还有一个重要的性质就是犯错了才修正。
则
由上面两个结论可以推出
证明:
令
R
2
=
m
a
x
(
∥
x
n
∥
2
)
,
ρ
=
m
i
n
(
y
n
w
f
T
∥
w
f
∥
x
n
)
R^2 = max(\|x_{n}\|^2), \rho=min(y_{n}\frac{\mathbf{w_{f}^T}}{\|\mathbf{w_{f}}\|}\mathbf{x_{n}})
R2=max(∥xn∥2),ρ=min(yn∥wf∥wfTxn)
当
T
=
1
T=1
T=1时,
w
f
T
∥
w
f
∥
w
1
∥
w
1
∥
⩾
w
f
T
(
w
0
+
m
i
n
(
y
n
x
n
)
)
∥
w
f
∥
∥
w
0
∥
2
+
m
a
x
(
∥
y
n
x
n
∥
2
)
=
w
f
T
m
i
n
(
y
n
(
t
)
x
n
(
t
)
)
∥
w
f
∥
m
a
x
(
∥
y
n
x
n
∥
2
)
=
ρ
R
=
c
o
n
s
t
a
n
t
\frac{ \mathbf{w_{f}^T} }{ \|\mathbf{w_{f}}\|} \frac{ \mathbf{w_{1}} }{ \|\mathbf{w_{1}}\| } \geqslant \frac{ \mathbf{w_{f}^T}(\mathbf{w_{0}}+min(y_{n}\mathbf{x_{n}})) }{ \|\mathbf{w_{f}}\| \sqrt{\|\mathbf{w_{0}}\|^2}+max(\|\mathbf{y_{n}x_{n}}\|^2)}= \frac{\mathbf{w_{f}^T}min(y_{n(t)}\mathbf{x_{n(t)}})}{\|\mathbf{w_{f}}\| \sqrt{max(\|\mathbf{y_{n}x_{n}}\|^2)}}=\frac{\rho}{R}=constant
∥wf∥wfT∥w1∥w1⩾∥wf∥∥w0∥2+max(∥ynxn∥2)wfT(w0+min(ynxn))=∥wf∥max(∥ynxn∥2)wfTmin(yn(t)xn(t))=Rρ=constant
假设当
T
=
t
T=t
T=t时结论成立,当
T
=
t
+
1
T=t+1
T=t+1时,
w
f
T
∥
w
f
∥
w
t
+
1
∥
w
t
+
1
∥
⩾
w
f
T
(
w
t
+
m
i
n
(
y
n
x
n
)
)
∥
w
f
∥
∥
w
t
∥
2
+
m
a
x
(
∥
y
n
x
n
∥
2
)
\frac{ \mathbf{w_{f}^T} }{ \|\mathbf{w_{f}}\|} \frac{ \mathbf{w_{t+1}} }{ \|\mathbf{w_{t+1}}\| } \geqslant \frac{ \mathbf{w_{f}^T}(\mathbf{w_{t}}+min(y_{n}\mathbf{x_{n}})) }{ \|\mathbf{w_{f}}\| \sqrt{\|\mathbf{w_{t}}\|^2}+max(\|\mathbf{y_{n}x_{n}}\|^2)}
∥wf∥wfT∥wt+1∥wt+1⩾∥wf∥∥wt∥2+max(∥ynxn∥2)wfT(wt+min(ynxn))
又因为
w
f
T
∥
w
f
∥
w
t
∥
w
t
∥
⩾
t
⋅
ρ
R
\frac{ \mathbf{w_{f}^T} }{ \|\mathbf{w_{f}}\|} \frac{ \mathbf{w_{t}} }{ \|\mathbf{w_{t}}\| } \geqslant \sqrt{t}\cdot \frac{\rho}{R}
∥wf∥wfT∥wt∥wt⩾t⋅Rρ
设
w
f
T
w
t
=
k
ρ
\mathbf{w_{f}^T}\mathbf{w_{t}}=k\rho
wfTwt=kρ
则
∥
w
f
∥
∥
w
t
∥
⩽
k
t
R
\|\mathbf{w_{f}}\|\|\mathbf{w_{t}}\|\leqslant \frac{k}{\sqrt{t}}R
∥wf∥∥wt∥⩽tkR
带入易得
w
f
T
∥
w
f
∥
w
t
+
1
∥
w
t
+
1
∥
⩾
t
+
1
⋅
ρ
R
\frac{ \mathbf{w_{f}^T} }{ \|\mathbf{w_{f}}\|} \frac{ \mathbf{w_{t+1}} }{ \|\mathbf{w_{t+1}}\| } \geqslant \sqrt{t+1}\cdot \frac{\rho}{R}
∥wf∥wfT∥wt+1∥wt+1⩾t+1⋅Rρ
得证。