机器学习基石

最新推荐文章于 2022-12-27 21:16:49 发布

1只小包子

最新推荐文章于 2022-12-27 21:16:49 发布

阅读量195

点赞数

分类专栏：机器学习基石文章标签：机器学习基石

本文链接：https://blog.csdn.net/a940902940902/article/details/83833763

版权

机器学习基石专栏收录该内容

19 篇文章 1 订阅

订阅专栏

感知机模型

约定：

在下列公式中对于向量均使用列向量的方式，即X=(x₁,x₂,…x_n) ^T
H：hypothesis ，通过学习所得的模型
F：自然存在的潜在规则,理想状况下的模型（X 是通过F产生的，即X代表着F的分布）
X：(x₁,x₂,…x_n) ^T ， X∈ Rⁿ ，X代表学习资料的向量化表示
Y：对于二分类而言 Y=+1 表示正类别 Y=-1表示副类别
W：(w₁,w₂,…w_n) ^T ， W∈ Rⁿ，W代表学习权重
threshold：阈值，对于二分类问题而言，超过阈值表示一类，小于阈值表示另一类

问题：

以公民发放信用卡为例，对于一个公民，银行会根据其年龄x₁，性别x₂，住房状况x₃等等特征最终，通过学习参数W与threshold比较，判定最终Y的类别
向量化：H(w)=sign(w₁x₁+w₂x₂+…+w_nx_n - threshold)
为了书写方便可以定义x₀=-1，w₀=threshold，在这里之所以将threshold赋值给w₀，可以将threshold想象为也是一个可以学习的参数
H(w)=sign(∑ W^TX)

核心：

PLA：找出一个犯错误的样本
利用错误样本对当前状态进行更新

学习过程

对于PLA而言任意选择一个样本 X ⁱ 若sign( W^TXⁱ )＝Y ⁱ ，则不需要进行修正若sign( W^TXⁱ )≠Y ⁱ 则需要根据该样本进行修正
W^TXⁱ可以看做是特征空间中两个向量的内积，当W^TXⁱ为正而Y ⁱ为负时，说明两个向量的夹角过小需要增大两个向量的夹角，同理对于W^TXⁱ为负 Yⁱ为正，说明两个向量夹角过大需要减小两个向量的夹角。对于两个向量而言向量相加得到的第三向量在两个向量之间，所以向量相加具有减小向量夹角的作用，在这里使用的修正方式就是
若W^TXⁱ 为正 Yⁱ 为负，则W^T=W^T-Xⁱ
若W^TXⁱ 为负 Yⁱ 为正，则W^T=W^T+Xⁱ
因为Y=+1或-1，整理可得 W^T=W^T+Yⁱ Xⁱ

初始化：
对于初始状态，可以初始化W =0 ，可以看做所有的分类均处于错误状态，随机选取一个样本，因为此时是分类错误的，所以W^T=W^T+Yⁱ Xⁱ
在这里插入图片描述

此时得到当前的W，因为对于二维空间而言 WX=0是一条二维空间上的直线 W为法向量，因此此时的分割线为
在这里插入图片描述
对于错分点x0 原本为正却误分为负因此与W相加减小X与W之间的夹角，修正错误

以此类推最终可得到结果

因为PLA的终止条件是样本空间中没有一个错分样本因此在这一终止条件下能够达成终止的限制是该样本空间是线性可分的，此时存在一个W_f 使得H=sign(W_f^TX) 对样本空间中所有的X均成立
因此Y_nW_f^TX_n >=min _a Y_aW_f^TX_a >0 即样本空间中所有的样本与W之间的内积都大于离分类线最近的样本和W的内积且大于0

那对于任意W_t 和Wf之间存在什么关系呢可以通过向量的内积来探寻这一关系
即 W_t+1 W_f =W_f （W_t +Y_n^TX_n ）>=W_t W_f+min _a Y_aW_f^TX_a
可以看出 W_t+1 W_f 比W_t W_f 乘积要大因此可以看出W在慢慢的接近Wf 但是这样说又是不确切的因为两个向量的内积在增大有可能是因为向量之间的夹角在变小也有可能是向量长度在增大，因此还需要排除长度的影响
|| W_t+1 || ² =|| W _t +Y_n X_n||² =|| W_t || ² +2 W _t Y_n X_n +|| Y_n X_n|| X_n
又因为只有在出错的时候PLA才会执行对W的修改因此2 W _t Y_n X_n小于0，整理可得 || W_t+1 || ² < || W_t || ²+max|| X_n|| ²
具体推导过程见 PLA收敛性推导

PLA在上述过程中可以看出基于一个假设就是PLA使用的训练样本是线性可分的，但是在使用上讲，我们在拿到训练样本的时候并不知道该训练样本一定是线性可分的如果这样说的话上述的PLA算法就不会停止
对于存在噪声的数据，可能存在一定的训练数据无法线性可分，在这种情况下我们可以把假设由总是存在线性可分的分割空间变成总是存在一个还不错的分割空间，使用同样的更新法则，唯一不同的是，每得到一个分割函数就在全部空间中进行遍历，记录错误数量每次修改后都进行这样的操作，如果出现比当前好的分割函数则保存。
和PLA不同的地方是 PLA停止条件是当所有的训练样本都不出错的情况下则停止而这种情况是迭代足够多的次数会自动停止并返回保存的最佳分割函数。