感知机模型(收敛性和对偶学习)

感知机模型

感知机判别模型
f ( x ) = sign ( w ⋅ x + b ) , sign ( x ) = { + 1 , x ≥ 0 − 1 , x < 0 f( x)=\text{sign}( w\cdot x+b), \quad\text{sign}(x)= \begin{cases} +1,&x\geq0\\ -1,&x\lt0 \end{cases} f(x)=sign(wx+b),sign(x)={+1,1,x0x<0
其中 w w w称为权值向量, b b b称为权值偏置。


感知机损失函数

选取误分类点到超平面的总距离作为损失函数,M表示误分类样本集,则:
L ( w , b ) = ∑ ( x , y ) ∈ M 1 ∣ ∣ w ∣ ∣ ∣ w ⋅ x + b ∣ = − 1 ∣ ∣ w ∣ ∣ ∑ ( x , y ) ∈ M y ( w ⋅ x + b ) ≃ − ∑ ( x , y ) ∈ M y ( w ⋅ x + b ) L( w,b) = \sum_{( x,y)\in M}\frac{1}{|| w||}| w\cdot x+b|= -\frac{1}{|| w||}\sum_{( x,y)\in M}y( w\cdot x+b)\simeq-\sum_{( x,y)\in M}y( w\cdot x+b) L(w,b)=(x,y)Mw1wx+b=w1(x,y)My(wx+b)(x,y)My(wx+b)
误分类样本始终满足 − y ( w ⋅ x + b ) > 0 -y( w\cdot x+b)>0 y(wx+b)>0


感知机训练

误分类样本集为M,目标函数
L ( w , b ) = − ∑ x ∈ M y ( w ⋅ x + b ) = − ∑ x y ( w ^ ⋅ x ^ ) , w ^ = ( w , b ) ,   x ^ = ( x , 1 ) ⊤ L( w,b)=-\sum_{x\in M}y( w\cdot x+b)=-\sum_xy(\hat w\cdot\hat x),\quad \hat w=(w, b),\ \hat x=( x,1)^\top L(w,b)=xMy(wx+b)=xy(w^x^),w^=(w,b), x^=(x,1)
使用随机梯度下降,得更新公式
w n + 1 = w n + η y i x i , b n + 1 = b n + η y i    ⟹    w ^ n + 1 = w ^ n + η y i x ^ i w_{n+1} = w_n + \eta y_i x_i,\quad b_{n+1}=b_n+\eta y_i \implies \hat w_{n+1}=\hat w_{n}+\eta y_i\hat x_i wn+1=wn+ηyixi,bn+1=bn+ηyiw^n+1=w^n+ηyix^i


感知机收敛性

采用梯度下降法,极小化损失函数,若样本集线性可分,最终损失函数值为0(模型收敛)。

若模型 w ^ o p t \hat w_{opt} w^opt ∣ ∣ w ^ o p t ∣ ∣ = 1 ||\hat w_{opt}||=1 w^opt=1,能完全正确划分数据集,模型参数初值 w ^ 0 = 0 \hat w_0=0 w^0=0,令 γ = min ⁡ x y ( w ^ o p t ⋅ x ^ ) \gamma=\min_{x} y(\hat w_{opt}\cdot \hat x) γ=minxy(w^optx^) R = max ⁡ x ∣ ∣ x ∣ ∣ R=\max_x ||x|| R=maxxx,则
w ^ k ⋅ w ^ o p t = w ^ k − 1 ⋅ w ^ o p t + η y i x ^ i ⋅ w ^ o p t ≥ w ^ k − 1 ⋅ w ^ o p t + η γ ≥ . . . ≥ k η γ \hat w_{k}\cdot \hat w_{opt}=\hat w_{k-1}\cdot \hat w_{opt}+\eta y_i\hat x_i \cdot \hat w_{opt}\geq \hat w_{k-1}\cdot \hat w_{opt}+\eta\gamma\geq ...\geq k\eta\gamma w^kw^opt=w^k1w^opt+ηyix^iw^optw^k1w^opt+ηγ...kηγ

∣ ∣ w ^ k ∣ ∣ 2 = ∣ ∣ w ^ k − 1 ∣ ∣ 2 + 2 η y i w ^ k − 1 ⋅ x ^ i + ∣ ∣ x ^ i ∣ ∣ 2 ≤ ∣ ∣ w ^ k − 1 ∣ ∣ 2 + η 2 R 2 ≤ . . . ≤ k η 2 R 2 ||\hat w_k||^2=||\hat w_{k-1}||^2+2\eta y_i\hat w_{k-1}\cdot\hat x_i+||\hat x_i||^2\leq ||\hat w_{k-1}||^2+\eta^2R^2\leq...\leq k\eta^2R^2 w^k2=w^k12+2ηyiw^k1x^i+x^i2w^k12+η2R2...kη2R2
因此
k η γ ≤ w ^ k ⋅ w ^ o p t ≤ ∣ ∣ w ^ k ∣ ∣   ∣ ∣ w ^ o p t ∣ ∣ = ∣ ∣ w ^ k ∣ ∣ ≤ k η R    ⟹    k ≤ ( R γ ) 2 k\eta\gamma \leq \hat w_k\cdot \hat w_{opt}\leq||\hat w_k||\ ||\hat w_{opt}||=||\hat w_k||\leq \sqrt{k}\eta R \implies k \leq \left(\frac{R}{\gamma}\right)^2 kηγw^kw^optw^k w^opt=w^kk ηRk(γR)2
可见,感知机最多迭代k次收敛,感知机模型 f ( x ) = sign ( w ⋅ x + b ) f( x)=\text{sign}( w\cdot x+b) f(x)=sign(wx+b)的训练过程

  • 初始化 w w w b b b
  • 选取任意错分样本 ( x i , y i ) ( x_i,y_i) (xi,yi),更新参数(使超平面超错分样本移动),重复此步骤直至无错分样本;

对偶学习

感知机对偶学习的基本思想是,将原参数表示为实例线性组合的形式,通过求解其系数进而求解原参数。由随机梯度下降的更新公式可知,若 参数初值为0,最终模型参数为
w = ∑ i n i η y i x i = ∑ i α i y i x i w=\sum_i n_i\eta y_i x_i=\sum_i\alpha_iy_i x_i w=iniηyixi=iαiyixi

式中, n i n_i ni为样本 ( x i , y i ) ( x_i, y_i) (xi,yi)被误分类的次数。

感知机模型 f ( x ) = sign ( ∑ i α i y i x i ⋅ x + b ) f( x)=\text{sign}\big(\sum_i\alpha_iy_i x_i\cdot x+b\big) f(x)=sign(iαiyixix+b),对偶学习过程:

  • 初始化 α \alpha α b b b均为0;
  • 选取任意错分样本 ( x i , y i ) ( x_i,y_i) (xi,yi),更新参数,重复此步骤直至无错分样本;
    α i = α i + η , b = b + η y i \alpha_{i}=\alpha_i+\eta,\quad b=b+\eta y_i αi=αi+η,b=b+ηyi

对偶形式中,训练实例仅以內积形式出现,计算和存储方便。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值