统计学习方法: 感知机---证明算法收敛度

原书中的定理:

原书中的定理

对于(1)

上图中 γ \gamma γ 代表着
在这里插入图片描述

在定理中 W ^ o p t \hat{W}_{opt} W^opt有个约束 ∥ W ^ o p t ∥ = 1 \lVert \hat{W}_{opt}\Vert=1 W^opt=1,这个约束是为了得到唯一的 W ^ o p t \hat{W}_{opt} W^opt

W ^ o p t \hat{W}_{opt} W^opt 代表该参数可以完全把样本线性可分
解释定理中的参数的含义

对于(2)

了解了各参数的含义后,接下来证明两个公式:

假设

W o ^ = ( 0 , 0 , . . . . , 0 ) T \hat{W_o} = (0,0,....,0)^T Wo^=(0,0,....,0)T;即 ∥ W o ^ ∥ = 0 \lVert\hat{W_o}\lVert=0 Wo^=0
W ^ k = ( W k , b k ) T \hat{W}_k = (W_k, b_k)^T W^k=Wk,bk)T代表在更新过程中的参数

证明1

在这里插入图片描述

过程(运用了递推)

在感知机中 W ^ k \hat{W}_{k} W^k可以由 W ^ k − 1 \hat{W}_{k-1} W^k1得到
在这里插入图片描述

证明2

在这里插入图片描述

前置知识:

在这里插入图片描述

推导过程:

注意: y i = 1 或 − 1 y_i = 1或-1 yi=11
对于错误分类的点 y i ∗ ( w ∗ x i + b ) < 0 y_i*(w*x_i+b)<0 yi(wxi+b)<0
至于 R 2 R^2 R2,可以在定理中找到其含义 R = m a x ( ∥ X i ∥ ) R =max(\lVert X_i\lVert) R=max(Xi)
在这里插入图片描述
下图画圈的地方是根据柯西不等式得出,
之后的推理运用了上面的两个公式:
证明算法收敛性

反思:

在这里插入图片描述
对于证明的这两个公式可以看出
我们更新的 W k ^ \hat{W_k} Wk^要距离 W ^ o p t \hat{W}_{opt} W^opt越来越近,即更新 W ^ k \hat{W}_k W^k要使得到的参数可以线性划分样本点:

  1. 所以这两个向量的内积才会大(但向量内积大也可能是 w ^ k \hat{w}_k w^k的长度变长)
  2. 所以才会右第二个结论来对其范数的限制
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值