感知机算法的收敛性
感知机学习算法是否收敛?
-
定理:假设给定m个输入样本( { X ( k ) } , ( k = 1 , 2 , . . . , m ) \{X(k)\},(k=1,2,...,m) { X(k)},(k=1,2,...,m))线性可分,那么感知机学习算法的权值就会在有限次的步骤中收敛到理想输出。
-
定性解释:
如果两类n维样本线性可分,那么一定存在一个n-1维的平面将其分开,n-1维超平面定义为:
W ( k ) = [ w 0 ( k ) , w 1 ( k ) , . . . w n ( k ) ] : W T X ( k ) = 0 W(k)=[w_0(k),w_1(k),...w_n(k)]:W^TX(k)=0 W(k)=[w0(k),w1(k),...wn(k)]:WTX(k)=0
→ w 0 ( k ) + w 1 ( k ) x 1 ( k ) + . . . + w n ( k ) x n ( k ) = 0 \rarr w_0(k)+w_1(k)x_1(k)+...+w_n(k)x_n(k)=0 →w0(k)+w1(k)x1(k)+...+wn(k)xn(k)=0
这个超平面将 X ( k ) X(k) X(k)分为两类:
W ( k ) T X ( k ) > 0 → y ( k ) = 1 → X ( k ) ∈ C 1 W(k)^TX(k)>0\rarr y(k)=1\rarr X(k)\in C_1 W(k)TX(k)>0→y(k)=1→X(k)∈C1
W ( k ) T X ( k ) < 0 → y ( k ) = 0 → X ( k ) ∈ C 0 W(k)^TX(k)<0\rarr y(k)=0\rarr X(k)\in C_0 W(k)TX(k)<0→y(k)=0→X(k)∈C0
在训练过程中,感知机的权重不断地在被调整使得分类结果接近正确分类结果。
-
定量证明:
假设存在由理想的权值 W ∗ W^* W∗确定的理想超平面 H ∗ H^* H∗,可得到如下结果:
如果 X ( k ) ∈ C 1 X(k)\in C_1 X(k)∈C1,那么 X T ( k ) W ∗ > 0 , y ( k ) = 1 X^T(k)W^*>0,y(k)=1 XT(k)W∗>0,y(k)=1;
如果 X ( k ) ∈ C 0 X(k)\in C_0 X(k)∈C0,那么 X T ( k ) W ∗ < 0 , y ( k ) = 0 X^T(k)W^*<0,y(k)=0 XT(k)W∗<0,y(k)=0。
证明:学习算法是否能逼近 W ∗ W^* W∗
证明:假设 W ∗ W^* W∗是理想权值,那么任意 α > 0 \alpha>0 α>0, α W ∗ \alpha W^* αW∗也是理想权值。因为有:
X T ( k ) α W ∗ > 0 X^T(k)\alpha W^*>0 XT(k)αW∗>0,或者 X T ( k ) α W ∗ < 0 X^T(k)\alpha W^*<0 XT(k)αW∗<0
理性权值不为1,找到一个,乘任一大于0的常数还是理想权值
所以,算法逼近 α W ∗ \alpha W^* αW∗也算逼近理想权值
证明:存在有限值N,使得 ∥ W ( N ) − α W ∗ ∥ 2 → N ↑ 0 \lVert W(N)-\alpha W^*\rVert^2\xrightarrow{N\uparrow}0 ∥W(N)−αW∗∥2N↑0。
证明过程:
根据学习算法,在第k次迭代过程中,可以得到权值:
W ( k + 1 ) = W ( k ) + η ( d ( k ) − y ( k ) ) X ( k ) W(k+1)=W(k)+\eta(d(k)-y(k))X(k) W(k+1)=W(k)+η(d(k)−y(k))X(k)
如果在第k次迭代, X ( k ) X(k) X(k)被正确分类,那么 d ( k ) − y ( k ) = 0 , W ( k + 1 ) = W ( k ) d(k)-y(k)=0,W(k+1)=W(k) d(k)−y(k)=0,W(k+1)=W(k)
如果在第k次迭代中,发生错误分类,那么:
情况1: X ( k ) ∈ C 1 X(k)\in C_1 X(k)∈C
-