一文详解感知机模型算法收敛性的公式推导

\quad\quad 我们知道,对于线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。
这里,我们记 w ^ = ( w T , b ) T \hat{w}=\left(w^{T}, b\right)^{T} w^=(wT,b)T, x ^ = ( x T , 1 ) T \hat{x}=\left(x^{T}, 1\right)^{T} x^=(xT,1)T
其中, x ^ ∈ R n + 1 \hat{x} \in R ^{n+1} x^Rn+1 w ∈ R n + 1 w \in R ^{n+1} wRn+1
显然,我们可以得到: w ^ ⋅ x ^ = w ⋅ x + b \hat{w} \cdot \hat{x}=w \cdot x+b w^x^=wx+b

Novikoff 定理: 设训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),,(xN,yN)}是线性可分的,其中
x i ∈ χ = R n , y i ∈ Y = { − 1 , + 1 } , i = 1 , 2 , ⋯   , N x_{i} \in \chi=R^{n}, \quad y_{i} \in Y=\{-1,+1\}, \quad i=1,2, \cdots, N xiχ=Rn,yiY={1,+1},i=1,2,,N,则:
\quad\quad (1)存在满足条件 ∥ w ^ o p t ∥ = 1 \left\|\hat{w}_{o p t}\right\|=1 w^opt=1的超平面 w ^ o p t ⋅ x ^ = w o p t ⋅ x + b o p t = 0 \hat{w}_{o p t} \cdot \hat{x}=w_{o p t} \cdot x+b_{o p t}=0 w^optx^=woptx+bopt=0将训练数据集完全正确分开;且存在γ>0,对所有 i = 1 , 2 , ⋯   , N i=1,2, \cdots, N i=1,2,,N,我们有: y i ( w o p t ⋅ x i ) = y i ( w o p t ⋅ x i + b o p t ) ≥ γ ( ∗ ) y_{i}\left(w_{o p t} \cdot x_{i}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma \quad(*) yi(woptxi)=yi(woptxi+bopt)γ()
\quad\quad (2)感知机算法原始模式在训练数据集上的误分类次数k满足不等式: k ≤ ( R γ ) 2 k \leq\left(\frac{R}{\gamma}\right)^{2} k(γR)2
其中, R = max ⁡ 1 ≤ i ≤ N ∥ x i ∥ ( ∗ ∗ ) R=\max _{1 \leq i \leq N}\left\|x_{i}\right\| \quad(* *) R=max1iNxi()

接下来,然我们来证明该算法的收敛性——
1- 由于训练数据集是线性可分的,因此必然存在超平面可以将训练数据集完全正确分开,我们这里取其中的一个超平面为 w o p t ⋅ x i = w o p t ⋅ x i + b o p t = 0 w_{o p t} \cdot x_{i}=w_{o p t} \cdot x_{i}+b_{o p t}=0 woptxi=woptxi+bopt=0,使 ∥ w o p t ∧ ∥ = 1 \left\|w_{o p t}^{\wedge}\right\|=1 wopt=1,由于对有限的 i = 1 , 2 , ⋯   , N i=1,2, \cdots, N i=1,2,,N,均有
y i ( w ^ o p t ⋅ x i ^ ) = y i ( w o p t ⋅ x i + b o p t ) > 0 y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right)>0 yi(w^optxi^)=yi(woptxi+bopt)>0
所以存在有
γ = min ⁡ i { y i ( w o p t ⋅ x i + b o p t ) } \gamma=\min _{i}\left\{y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right)\right\} γ=imin{yi(woptxi+bopt)}
使得
y i ( w ^ o p t ⋅ x i ^ ) = y i ( w o p t ⋅ x i + b o p t ) ≥ γ y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma yi(w^optxi^)=yi(woptxi+bopt)γ
证毕。
ps:这里解释下,对于 y i ( w ^ o p t ⋅ x i ^ ) y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right) yi(w^optxi^),这里表示的是真实值和预测值的乘积,由于我们取的是完全可分离的超平面,故真实值和预测值必然是一致的,不同的只是这些预测点距离分离面的距离不同,这里取γ表示所有预测点中距离超平面最小距离的那个,故任意一个正确分类点必然是大于等于这个γ值。

2- 感知机算法是从 w ^ 0 = 0 \hat{w}_{0}=0 w^0=0

开始的,如果实例被误分类,则更新权重。令 w ^ k − 1 \hat{w}_{k-1} w^k1是第k个误分类实例之前的扩充向量,即 w ^ k − 1 = ( w k − 1 T , b k − 1 ) T \hat{w}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T} w^k1=(wk1T,bk1)T
则第k个误分类实例的条件是
y i ( w ^ k − 1 ⋅ x ^ i ) = y i ( w k − 1 ⋅ x i + b k − 1 ) ≤ 0 ( ∗ ∗ ∗ ) y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leq 0\quad (***) yi(w^k1x^i)=yi(wk1xi+bk1)0()

( x i , y i ) (x_i,y_i) (xi,yi)是被 w ^ k − 1 = ( w k − 1 T , b k − 1 ) T \hat{w}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T} w^k1=(wk1T,bk1)T误分类的数据,则w和b的更新为: w k ← w k − 1 + η y i x i w_{k} \leftarrow w_{k-1}+\eta y_{i} x_{i} wkwk1+ηyixi
b k ← b k − 1 + η y i b_{k} \leftarrow b_{k-1}+\eta y_{i} bkbk1+ηyi
w ^ k = w ^ k − 1 + η y i x ^ i \hat{w}_{k} =\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i} w^k=w^k1+ηyix^i
下面推导两个不等式:

(1) w ^ k ⋅ w ^ o p t ≥ k η γ \hat{w}_k \cdot \hat{w}_{o p t} \geq k \eta \gamma w^kw^optkηγ

这里,我们将 w ^ k 替 换 为 w ^ k − 1 + η y i x ^ i \hat{w}_{k} 替换为\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i} w^kw^k1+ηyix^i代入 w ^ k ⋅ w ^ o p t \hat{w}_k \cdot \hat{w}_{o p t} w^kw^opt可得到:
w ^ k ⋅ w ^ o p t = ( w ^ k − 1 + η y i x ^ i ) w ^ o p t = w ^ k − 1 ⋅ w ^ o p t + η y i w ^ o p t ⋅ x ^ i ≥ w ^ k − 1 ⋅ w ^ o p t + η γ \begin{aligned} \hat{w}_{k} \cdot \hat{w}_{o p t} &=\left(\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}\right) \hat{w}_{o p t} \\ &=\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta y_{i} \hat{w}_{o p t} \cdot \hat{x}_{i} \\ & \geq \hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma \end{aligned} w^kw^opt=(w^k1+ηyix^i)w^opt=w^k1w^opt+ηyiw^optx^iw^k1w^opt+ηγ
上面我们代入了 y i ( w ^ o p t ⋅ x i ^ ) = y i ( w o p t ⋅ x i + b o p t ) ≥ γ y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma yi(w^optxi^)=yi(woptxi+bopt)γ,经过化简得到了:
w ^ k ⋅ w ^ o p t ≥ w ^ k − 1 ⋅ w ^ o p t + η γ \hat{w}_{k} \cdot \hat{w}_{o p t} \geq\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma w^kw^optw^k1w^opt+ηγ,通过递归此不等式我们可以进一步的得到:
w ^ k ⋅ w ^ o p t ≥ w ^ k − 1 ⋅ w ^ o p t + η γ ≥ w ^ k − 2 ⋅ w ^ o p t + 2 η γ ≥ ⋯ ≥ w ^ 0 ⋅ w ^ o p t + k η γ \hat{w}_{k} \cdot \hat{w}_{o p t} \geq\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma\geq\hat{w}_{k-2} \cdot \hat{w}_{o p t}+2\eta\gamma\geq\cdots\geq\hat{w}_{0} \cdot \hat{w}_{o p t}+k\eta\gamma w^kw^optw^k1w^opt+ηγw^k2w^opt+2ηγw^0w^opt+kηγ
根据初始条件我们可知 w ^ 0 = 0 \hat{w}_{0}=0 w^0=0,因此我们可以得到 w ^ k ⋅ w ^ o p t ≥ k η γ . \hat{w}_k \cdot \hat{w}_{o p t} \geq k \eta \gamma. w^kw^optkηγ.

(2) ∥ w ^ k ∥ 2 ≤ k η 2 R 2 \left\|\hat{w}_{k}\right\|^{2} \leq k \eta^{2} R^{2} w^k2kη2R2

这里,我们将 w ^ k = w ^ k − 1 + η y i x ^ i \hat{w}_{k} =\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i} w^k=w^k1+ηyix^i代入上边不等式的左边,且有 y i ( w ^ k − 1 ⋅ x ^ i ) = y i ( w k − 1 ⋅ x i + b k − 1 ) ≤ 0 ( ∗ ∗ ∗ ) y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leq 0\quad (***) yi(w^k1x^i)=yi(wk1xi+bk1)0() R = max ⁡ 1 ≤ i ≤ N ∥ x i ∥ ( ∗ ∗ ) R=\max _{1 \leq i \leq N}\left\|x_{i}\right\| \quad(* *) R=max1iNxi() w ^ 0 = 0 \hat{w}_{0}=0 w^0=0,综上可得:
在这里插入图片描述
结合(1)(2)不等式,再结合柯西-布涅柯夫斯基不等式,并代入 ∥ w ^ o p t ∥ = 1 \left\|\hat{w}_{o p t}\right\|=1 w^opt=1我们可以得到:
k η γ ≤ w ^ k ⋅ w ^ o p t ≤ ∥ w ^ k ∥ ∥ w ^ o p t ∥ = ∥ w ^ k ∥ ≤ k η R k \eta \gamma \leq \hat{w}_{k} \cdot \hat{w}_{o p t} \leq\left\|\hat{w}_{k}\right\|\left\|\hat{w}_{o p t}\right\|=\left\|\hat{w}_{k}\right\| \leq \sqrt{k} \eta R kηγw^kw^optw^kw^opt=w^kk ηR
即有 k η R ≥ k η γ \sqrt{k} \eta R \geq k \eta \gamma k ηRkηγ化简可得 k R 2 ≥ k 2 γ 2 kR^2 \geq k^2\gamma^2 kR2k2γ2
综上可得: k ≤ ( R γ ) 2 k \leq\left(\frac{R}{\gamma}\right)^{2} k(γR)2

结论:此定理表明,误分类的次数k是有上届的,经过有限次搜索可以找到将训练数据完全正确分开的分离超平面,换句话说,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的。当然,这个解是非常多个的,它们即依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序,为了得到唯一的超平面,就需要对分离超平面增加约束条件,而这便是我们后面将学习到的支持向量机(SVM)的思想,它的原理是使得这个分离超平面的类间隔间距最大化。不过,当训练集线性不可分时,感知机学习算法是不收敛的,迭代结果会发生震荡。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值