感知机

最新推荐文章于 2024-02-16 00:00:14 发布

watermelon12138

最新推荐文章于 2024-02-16 00:00:14 发布

阅读量936

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/watermelon12138/article/details/88924010

版权

机器学习专栏收录该内容

25 篇文章 8 订阅

订阅专栏

一、概念

感知机是用于二分类的线性分类模型，其输入是实例的特征向量，输出是实例的类别，类别取+1和-1二个值，+1代表正类，-1代表负类。感知机对应于输入空间（特征空间）中将实例分为正负两类的分割超平面，属于判别模型。感知机学习算法简单易于实现，分为原始形式和对偶形式。
生成模型和判别模型
监督学习方法可以分为生成方法和判别方法，对应所学到的模型称为生成模型和判别模型。
生成模型：生成方法通过数据学到联合概率分布P(X, Y)，然后求出条件概率分布P(Y|X)作为预测模型。这种模型即为生成模型，它给定了输入X和输出Y的生成关系。典型的生成模型有：朴素贝叶斯和隐马尔可夫模型。
判别模型：判别方法由数据直接学到决策函数f(X)或者条件概率分布P(Y|X)作为预测模型。这种模型即为判别模型，它关心的是对于输入X应该得到什么输出Y，不关心X与Y之间的生成关系。典型的判别模型有：感知机，K近邻，决策树，逻辑回归，支持向量机，提升方法，条件随机场等。

二、感知机模型

1、定义
输入空间由x_i(x_i⁽¹⁾,x_i⁽²⁾,x_i⁽³⁾…x_i⁽ⁿ⁾)组成，输出空间为{-1, +1}，由输入空间到输出空间的映射函数为 f(x)=sign(w·x+b) 称为感知机。其中w是权重向量，b称为偏置，w·x为w和x的内积。sign(x)是符号函数，即：
在这里插入图片描述
感知机模型图如下：

2、解释
w·x+b=0对应于特征空间(输入空间)中的一个分割超平面，w是超平面的法向量，b是超平面的截距。
用三维空间举例：
三维空间中的平面方程可以写为Ax+By+Cz+D=0，其中A,B,C是该平面的法向量W=(A,B,C)的分量，X=(x, y, z)为平面中的一个点，所以该平面方程可以写为W·X+D=0。

三、感知机的学习策略

1、线性可分的数据集
感知机需要线性可分的数据集。如数据集T={(x₁,y₁),(x₂,y₂),(x₃,y₃)…(x_n,y_n)}，若对于所有的正例y_i=+1，都有w·x+b>0，对于所有的负例y=-1，都有w·x+b<0,那就称这个数据集是线性可分的。
2、感知机的学习策略
对于感知机模型只需确定它的参数w和b，这就需要定义一个损失函数(经验风险)并将其最小化。这里选择的损失函数是误分类的点到分割超平面的总距离。
空间中任一点x₀到分割超平面的距离为：
在这里插入图片描述
其中||w||是w的L2范数。
对于误分类点(x_i,y_i)来说，w·x_i+b和y_i是相反的，所以必有-y_i(w·x_i+b)>0，
所以任一误分类点到分割超平面的距离为：

给定训练数据集T={(x₁,y₁),(x₂,y₂),(x₃,y₃)…(x_n,y_n)}，感知机的损失函数定义为：
在这里插入图片描述
其中M是误分类点的集合。
显然损失函数L(w, b)是非负的，误分类点越少，误分类点就距离分割超平面越近，损失函数就越小。

四、感知机学习算法的原始形式

感知机的学习问题转换成了求解损失函数的最优化问题，这里采用随机梯度下降，随机的选择一个误分类点，使其梯度下降。
首先损失函数L(w,b)对w和b分别求导得：
在这里插入图片描述
随机的选择一个误分类点(x_i, y_i)，L(w,b)=-y_i(w·x_i+b)，▽_wL(w,b)=-y_ix_i，▽_bL(w,b)=-y_i，对w和b进行更新：

其中η是步长（学习率）。

综上所述，得到如下算法：
输入：训练数据集T={(x₁,y₁),(x₂,y₂),(x₃,y₃)…(x_n,y_n)}，x_i∈Rⁿ，y_i∈{-1，+1}，学习率η(0<η<=1)
输出：w和b
(1)选取初始值w₀，b₀
(2)从训练数据集中选取数据点(x_i，y_i)
(3)如果y_i(w_i·x_i+b)<=0,那它就是误分类点，所以就更新w，b得到新模型
在这里插入图片描述
(4)转到(2)，直至训练数据集中没有误分类点，或者满足迭代停止条件。
可见,感知机学习算法可以选取不同的初始值，选取不同的误分类点，所以最终学得的模型可以不同。

例子
给定数据集T={(x₁,y₁),(x₂,y₂),(x₃,y₃)},其中正实例点有x₁=(3,3)，x₂=(4,3),负实例点有x₃=(1,1),用感知机算法的原始形式求感知机模型。这里w=(w⁽¹⁾,w⁽²⁾),x=(x⁽¹⁾,x⁽²⁾)^T。
解：
取学习率η=1
(1)取初始值w₀=(0,0)，b₀=0
(2)选取x₁(3,3)，因为y₁(w₀·x₁+b₀)=0,所以它是误分类点，更新w和b为：
w ₁= w₀+x₁y₁=(3,3)
b₁= b₀+y₁=1
得到线性模型：w₁·x+b₁=3x⁽¹⁾+3x⁽²⁾+1
(3)因为此时x₁和x₂已经被正确分类，故选取x₃(1,1), 因为y₃(w₁·x₃+b₁)<0,被误分类，所以更新w,b
w₂ = w₁ + y₃x₃ = (3,3)+(-1, -1) = (2,2)
b₂= b₁ + y₃ = 1+(-1) = 0
得到线性模型：w₂·x+b₂ = 2x⁽¹⁾+2x⁽²⁾
如此迭代下去，直到：
在这里插入图片描述
此时训练数据集中的所有点都能正确分类，得到最终的分割超平面为x⁽¹⁾+x⁽²⁾-3=0，最终的感知机模型为f(x) = sign(x⁽¹⁾+x⁽²⁾-3)。
详细迭代过程如下：

五、感知机算法的收敛性

经验证，在数据集线性可分的情况下，感知机算法是收敛的，经过有限次迭代就可以得到将训练数据集中所有点都正确分类的感知机模型。

六、感知机算法的对偶形式

感知机算法的对偶形式是从另一个角度来理解感知机算法，它和感知机算法的原始形式结构相似，意思相近，所以被称为对偶形式。
感知机算法的原始形式中，对于任一个误分类点更新w，b为：
在这里插入图片描述
假设训练数据集中总共有N个数据点，则这N个点都有可能在某次迭代被选为误分类点，从而更新w和b，所以引入一个变量n_i代表数据点(x_i,y_i)被选为误分类点并且更新w和b的次数，1=< i <=N，n_i>=0。若w和b的初始值都取0，则感知机学习算法的原始形式最终学得的w和b可以如下表示：
在这里插入图片描述
令α_i=n_iη，α_i>=0，i=1,2…N，当η=1时，α_i表示第i个实例点由于被误分从而更新w和b的次数，所以上式又可以表示为：

所以最终的感知机模型可以表示为：

综上所述，得到如下算法：
输入：训练数据集T={(x₁,y₁),(x₂,y₂),(x₃,y₃)…(x_n,y_n)}，学习率η(0<η<=1)；其中x_i∈Rⁿ，y_i∈{-1，+1}
输出：α和b；其中α=(α₁,α₂,…,α_N)
(1)初始值α = (0,0,…,0)，b = 0
(2)在训练集中选择点(x_i,y_i)
(3) 若
在这里插入图片描述
说明它是误分类点，于是就更新α_i和b如下：

(4)转到(2)，直至训练数据集中没有误分类点，或者满足迭代停止条件。

注释：感觉这对偶形式还是有点繁琐，直接把w和b都用α表示，每次更新时只用更新α不就好了。

例子
给定数据集T={(x₁,y₁),(x₂,y₂),(x₃,y₃)},其中正实例点有x₁=(3,3)，x₂=(4,3),负实例点有x₃=(1,1),用感知机算法的对偶形式求感知机模型。
解：
(1)初始值α = (0, 0, 0)，b = 0，η = 1
(2)计算Gram矩阵(内积矩阵)
在这里插入图片描述
(3)选取x₁(3,3),因为满足

所以更新α₁=1,b=1
(4)迭代。过程见下表。
(5)最终w = 2x₁+0x₂-5x₃ = (1,1)，b=-3
分割超平面为：x⁽¹⁾+x⁽²⁾-3=0
感知机模型为：f(x) = sign(x⁽¹⁾+x⁽²⁾-3)
详细迭代过程如下表：在这里插入图片描述

watermelon12138

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
感知机

一、概念感知机是用于二分类的线性分类模型，其输入是实例的特征向量，输出是实例的类别，类别取+1和-1二个值，+1代表正类，-1代表负类。感知机对应于输入空间（特征空间）中将实例分为正负两类的分割超平面，属于判别模型。感知机学习算法简单易于实现，分为原始形式和对偶形式。生成模型和判别模型监督学习方法可以分为生成方法和判别方法，对应所学到的模型称为生成模型和判别模型。生成模型：生成方法通过数据...
复制链接

扫一扫