\quad\quad
我们知道,对于线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。
这里,我们记
w
^
=
(
w
T
,
b
)
T
\hat{w}=\left(w^{T}, b\right)^{T}
w^=(wT,b)T,
x
^
=
(
x
T
,
1
)
T
\hat{x}=\left(x^{T}, 1\right)^{T}
x^=(xT,1)T
其中,
x
^
∈
R
n
+
1
\hat{x} \in R ^{n+1}
x^∈Rn+1,
w
∈
R
n
+
1
w \in R ^{n+1}
w∈Rn+1
显然,我们可以得到:
w
^
⋅
x
^
=
w
⋅
x
+
b
\hat{w} \cdot \hat{x}=w \cdot x+b
w^⋅x^=w⋅x+b
Novikoff 定理: 设训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
 
,
(
x
N
,
y
N
)
}
T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}
T={(x1,y1),(x2,y2),⋯,(xN,yN)}是线性可分的,其中
x
i
∈
χ
=
R
n
,
y
i
∈
Y
=
{
−
1
,
+
1
}
,
i
=
1
,
2
,
⋯
 
,
N
x_{i} \in \chi=R^{n}, \quad y_{i} \in Y=\{-1,+1\}, \quad i=1,2, \cdots, N
xi∈χ=Rn,yi∈Y={−1,+1},i=1,2,⋯,N,则:
\quad\quad
(1)存在满足条件
∥
w
^
o
p
t
∥
=
1
\left\|\hat{w}_{o p t}\right\|=1
∥w^opt∥=1的超平面
w
^
o
p
t
⋅
x
^
=
w
o
p
t
⋅
x
+
b
o
p
t
=
0
\hat{w}_{o p t} \cdot \hat{x}=w_{o p t} \cdot x+b_{o p t}=0
w^opt⋅x^=wopt⋅x+bopt=0将训练数据集完全正确分开;且存在γ>0,对所有
i
=
1
,
2
,
⋯
 
,
N
i=1,2, \cdots, N
i=1,2,⋯,N,我们有:
y
i
(
w
o
p
t
⋅
x
i
)
=
y
i
(
w
o
p
t
⋅
x
i
+
b
o
p
t
)
≥
γ
(
∗
)
y_{i}\left(w_{o p t} \cdot x_{i}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma \quad(*)
yi(wopt⋅xi)=yi(wopt⋅xi+bopt)≥γ(∗)
\quad\quad
(2)感知机算法原始模式在训练数据集上的误分类次数k满足不等式:
k
≤
(
R
γ
)
2
k \leq\left(\frac{R}{\gamma}\right)^{2}
k≤(γR)2
其中,
R
=
max
1
≤
i
≤
N
∥
x
i
∥
(
∗
∗
)
R=\max _{1 \leq i \leq N}\left\|x_{i}\right\| \quad(* *)
R=max1≤i≤N∥xi∥(∗∗)
接下来,然我们来证明该算法的收敛性——
1- 由于训练数据集是线性可分的,因此必然存在超平面可以将训练数据集完全正确分开,我们这里取其中的一个超平面为
w
o
p
t
⋅
x
i
=
w
o
p
t
⋅
x
i
+
b
o
p
t
=
0
w_{o p t} \cdot x_{i}=w_{o p t} \cdot x_{i}+b_{o p t}=0
wopt⋅xi=wopt⋅xi+bopt=0,使
∥
w
o
p
t
∧
∥
=
1
\left\|w_{o p t}^{\wedge}\right\|=1
∥∥wopt∧∥∥=1,由于对有限的
i
=
1
,
2
,
⋯
 
,
N
i=1,2, \cdots, N
i=1,2,⋯,N,均有
y
i
(
w
^
o
p
t
⋅
x
i
^
)
=
y
i
(
w
o
p
t
⋅
x
i
+
b
o
p
t
)
>
0
y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right)>0
yi(w^opt⋅xi^)=yi(wopt⋅xi+bopt)>0
所以存在有
γ
=
min
i
{
y
i
(
w
o
p
t
⋅
x
i
+
b
o
p
t
)
}
\gamma=\min _{i}\left\{y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right)\right\}
γ=imin{yi(wopt⋅xi+bopt)}
使得
y
i
(
w
^
o
p
t
⋅
x
i
^
)
=
y
i
(
w
o
p
t
⋅
x
i
+
b
o
p
t
)
≥
γ
y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma
yi(w^opt⋅xi^)=yi(wopt⋅xi+bopt)≥γ
证毕。
ps:这里解释下,对于
y
i
(
w
^
o
p
t
⋅
x
i
^
)
y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)
yi(w^opt⋅xi^),这里表示的是真实值和预测值的乘积,由于我们取的是完全可分离的超平面,故真实值和预测值必然是一致的,不同的只是这些预测点距离分离面的距离不同,这里取γ表示所有预测点中距离超平面最小距离的那个,故任意一个正确分类点必然是大于等于这个γ值。
2- 感知机算法是从 w ^ 0 = 0 \hat{w}_{0}=0 w^0=0
开始的,如果实例被误分类,则更新权重。令
w
^
k
−
1
\hat{w}_{k-1}
w^k−1是第k个误分类实例之前的扩充向量,即
w
^
k
−
1
=
(
w
k
−
1
T
,
b
k
−
1
)
T
\hat{w}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T}
w^k−1=(wk−1T,bk−1)T
则第k个误分类实例的条件是
y
i
(
w
^
k
−
1
⋅
x
^
i
)
=
y
i
(
w
k
−
1
⋅
x
i
+
b
k
−
1
)
≤
0
(
∗
∗
∗
)
y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leq 0\quad (***)
yi(w^k−1⋅x^i)=yi(wk−1⋅xi+bk−1)≤0(∗∗∗)
若
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)是被
w
^
k
−
1
=
(
w
k
−
1
T
,
b
k
−
1
)
T
\hat{w}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T}
w^k−1=(wk−1T,bk−1)T误分类的数据,则w和b的更新为:
w
k
←
w
k
−
1
+
η
y
i
x
i
w_{k} \leftarrow w_{k-1}+\eta y_{i} x_{i}
wk←wk−1+ηyixi
b
k
←
b
k
−
1
+
η
y
i
b_{k} \leftarrow b_{k-1}+\eta y_{i}
bk←bk−1+ηyi
即
w
^
k
=
w
^
k
−
1
+
η
y
i
x
^
i
\hat{w}_{k} =\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}
w^k=w^k−1+ηyix^i
下面推导两个不等式:
(1) w ^ k ⋅ w ^ o p t ≥ k η γ \hat{w}_k \cdot \hat{w}_{o p t} \geq k \eta \gamma w^k⋅w^opt≥kηγ
这里,我们将
w
^
k
替
换
为
w
^
k
−
1
+
η
y
i
x
^
i
\hat{w}_{k} 替换为\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}
w^k替换为w^k−1+ηyix^i代入
w
^
k
⋅
w
^
o
p
t
\hat{w}_k \cdot \hat{w}_{o p t}
w^k⋅w^opt可得到:
w
^
k
⋅
w
^
o
p
t
=
(
w
^
k
−
1
+
η
y
i
x
^
i
)
w
^
o
p
t
=
w
^
k
−
1
⋅
w
^
o
p
t
+
η
y
i
w
^
o
p
t
⋅
x
^
i
≥
w
^
k
−
1
⋅
w
^
o
p
t
+
η
γ
\begin{aligned} \hat{w}_{k} \cdot \hat{w}_{o p t} &=\left(\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}\right) \hat{w}_{o p t} \\ &=\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta y_{i} \hat{w}_{o p t} \cdot \hat{x}_{i} \\ & \geq \hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma \end{aligned}
w^k⋅w^opt=(w^k−1+ηyix^i)w^opt=w^k−1⋅w^opt+ηyiw^opt⋅x^i≥w^k−1⋅w^opt+ηγ
上面我们代入了
y
i
(
w
^
o
p
t
⋅
x
i
^
)
=
y
i
(
w
o
p
t
⋅
x
i
+
b
o
p
t
)
≥
γ
y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma
yi(w^opt⋅xi^)=yi(wopt⋅xi+bopt)≥γ,经过化简得到了:
w
^
k
⋅
w
^
o
p
t
≥
w
^
k
−
1
⋅
w
^
o
p
t
+
η
γ
\hat{w}_{k} \cdot \hat{w}_{o p t} \geq\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma
w^k⋅w^opt≥w^k−1⋅w^opt+ηγ,通过递归此不等式我们可以进一步的得到:
w
^
k
⋅
w
^
o
p
t
≥
w
^
k
−
1
⋅
w
^
o
p
t
+
η
γ
≥
w
^
k
−
2
⋅
w
^
o
p
t
+
2
η
γ
≥
⋯
≥
w
^
0
⋅
w
^
o
p
t
+
k
η
γ
\hat{w}_{k} \cdot \hat{w}_{o p t} \geq\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma\geq\hat{w}_{k-2} \cdot \hat{w}_{o p t}+2\eta\gamma\geq\cdots\geq\hat{w}_{0} \cdot \hat{w}_{o p t}+k\eta\gamma
w^k⋅w^opt≥w^k−1⋅w^opt+ηγ≥w^k−2⋅w^opt+2ηγ≥⋯≥w^0⋅w^opt+kηγ
根据初始条件我们可知
w
^
0
=
0
\hat{w}_{0}=0
w^0=0,因此我们可以得到
w
^
k
⋅
w
^
o
p
t
≥
k
η
γ
.
\hat{w}_k \cdot \hat{w}_{o p t} \geq k \eta \gamma.
w^k⋅w^opt≥kηγ.
(2) ∥ w ^ k ∥ 2 ≤ k η 2 R 2 \left\|\hat{w}_{k}\right\|^{2} \leq k \eta^{2} R^{2} ∥w^k∥2≤kη2R2
这里,我们将
w
^
k
=
w
^
k
−
1
+
η
y
i
x
^
i
\hat{w}_{k} =\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}
w^k=w^k−1+ηyix^i代入上边不等式的左边,且有
y
i
(
w
^
k
−
1
⋅
x
^
i
)
=
y
i
(
w
k
−
1
⋅
x
i
+
b
k
−
1
)
≤
0
(
∗
∗
∗
)
y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leq 0\quad (***)
yi(w^k−1⋅x^i)=yi(wk−1⋅xi+bk−1)≤0(∗∗∗)、
R
=
max
1
≤
i
≤
N
∥
x
i
∥
(
∗
∗
)
R=\max _{1 \leq i \leq N}\left\|x_{i}\right\| \quad(* *)
R=max1≤i≤N∥xi∥(∗∗)和
w
^
0
=
0
\hat{w}_{0}=0
w^0=0,综上可得:
结合(1)(2)不等式,再结合柯西-布涅柯夫斯基不等式,并代入
∥
w
^
o
p
t
∥
=
1
\left\|\hat{w}_{o p t}\right\|=1
∥w^opt∥=1我们可以得到:
k
η
γ
≤
w
^
k
⋅
w
^
o
p
t
≤
∥
w
^
k
∥
∥
w
^
o
p
t
∥
=
∥
w
^
k
∥
≤
k
η
R
k \eta \gamma \leq \hat{w}_{k} \cdot \hat{w}_{o p t} \leq\left\|\hat{w}_{k}\right\|\left\|\hat{w}_{o p t}\right\|=\left\|\hat{w}_{k}\right\| \leq \sqrt{k} \eta R
kηγ≤w^k⋅w^opt≤∥w^k∥∥w^opt∥=∥w^k∥≤kηR
即有
k
η
R
≥
k
η
γ
\sqrt{k} \eta R \geq k \eta \gamma
kηR≥kηγ化简可得
k
R
2
≥
k
2
γ
2
kR^2 \geq k^2\gamma^2
kR2≥k2γ2
综上可得:
k
≤
(
R
γ
)
2
k \leq\left(\frac{R}{\gamma}\right)^{2}
k≤(γR)2
结论:此定理表明,误分类的次数k是有上届的,经过有限次搜索可以找到将训练数据完全正确分开的分离超平面,换句话说,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的。当然,这个解是非常多个的,它们即依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序,为了得到唯一的超平面,就需要对分离超平面增加约束条件,而这便是我们后面将学习到的支持向量机(SVM)的思想,它的原理是使得这个分离超平面的类间隔间距最大化。不过,当训练集线性不可分时,感知机学习算法是不收敛的,迭代结果会发生震荡。