单层感知机模型及其学习算法

Morefree_AI

已于 2022-10-15 22:28:33 修改

阅读量5.8k

点赞数 3

分类专栏：机器学习文章标签：算法学习机器学习

于 2022-10-13 14:36:11 首次发布

本文链接：https://blog.csdn.net/DXW_1203216/article/details/127244793

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

一、什么是感知机？

1958年，美国心理学家Frank Rosenblatt提出一种具有单层计算单元的神经网络，称为感知机(Perceptron)。感知机模拟人的视觉接受环境的信息，并利用神经元之间的连接进行信息传递。在感知机的研究中首次提出自组织、自学习的思想，而且对所能解决的问题存在着收敛算法，即在数学上能严格证明有效，因而对神经网络的研究起了重要的推动作用。

由于单层感知机的结构和功能都非常的简单，以至于目前在解决实际问题时很少被采用，但是由于它在神经网络研究中具有重要的意义，是研究其他深度网络的基础，所以理解单层感知机的原理是必要的。

二、单层感知机模型

单个人工神经元模型（M-P模型）：

多输出节点的单层感知机：

单层感知机只有一层处理单元，结构如上图所示。

图中左侧为输入层，也称为感知层，有n个神经元节点，这些节点只负责引入外部信息，自身不进行信息的处理。每个神经元节点接受一个输入信号 $x_i$ （ $i$ =1,2,3…n），n个输入信号构成输入列向量 $X$ :

$X = (x_1,x_2,\cdots,x_j,\cdots,x_n)^T$

图中右侧为输出层，也称为处理层，有m个神经元节点。每个节点均具有信息处理能力，m个节点向外输出处理过的信息构成输出列向量 $O$ ：

$O = (o_1,o_2,\cdots,o_i,\cdots,o_m)^T$

对于输出层来讲，用 $W_i$ 表示输出层第 $i$ 个神经元的权值列向量，其中 $i = 1,2,\cdots,m$ 。

$W_i = (w_i_1,w_i_2,w_i_j,\cdots,w_i_n)^T$

m个权值列向量又构成了感知机的权值矩阵 $W_i_j$ 。

$W_i_j = \begin{matrix} w_1_1 & w_1_2 & \cdots & w_1_n \\ w_2_1 & w_2_2 & \cdots & w_2_n \\ \vdots &\vdots &\vdots &\vdots \\ w_m_1 & w_m_2 & \cdots & w_m_n \end{}$

其中元素为 $w_i_j$ ,表示输入层第 $j$ 个神经元到输出层第 $i$ 的神经元的权值。

（ $i$ 表示下一层即输出层的第 $i$ 个神经元， $j$ 表示上一层即输入层的第 $j$ 个神经元。）

由M-P模型可知，对于输出层的任意一神经元节点 $i$ ，其输入 $u_i = \sum_{j=1}^nw_i_jx_j$ ， $b_i$ 为神经元 $i$ 的阈值，净输入为 $u_i-b_i$ ，激励函数为符号函数 $f(x)=sgn(x)=\left\{ \begin{aligned} +1,x\ge0 \\ -1,x<0 \end{aligned} \right.$ 。则输出神经元 $i$ 的输出 $o_i$ 表示为：

$o_i=sgn(u_i-b_i)=sgn(\sum_{j=1}^nw_i_jx_j-b_i)=sgn(W^{T}_iX-b_i)=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

在计算神经元 $i$ 的输出时，实际为一个M-P模型，其中输入向量 $X = (x_1,x_2,\cdots,x_j,\cdots,x_n)^T$ ，权值向量 $W_i = (w_i_1,w_i_2,w_i_j,\cdots,w_i_n)^T$ ，则 $W^{T}_iX-b_i=0$ 展开写成标量形式为：

$w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i = 0$

这在几何意义上实则为一个n维超平面的一般方程， $W^{T}_i$ 为超平面的法向量， $b_i$ 为超平面的截距。此n维超平面可以将n维空间分为两个部分，也即可以将输入的样本分为两类。

关于以上几何意义说法的简要证明：

因为过空间一点可以作而且只能作一平面垂直于一已知直线，所以当平面 $\prod$ 上一点 $M_0(x_0,y_0,z_0)$ 和它的一个法线向量 $\bold n = (A,B,C)$ 为已知时，平面 $\prod$ 的位置就完全确定了。由此我们可以建立平面 $\prod$ 的方程：

设 $M(x,y,z)$ 是平面 $\prod$ 上的任意一点， $M_0(x_0,y_0,z_0)$ 为平面上已知一点，则向量 $\overrightarrow{MM_0}$ 必然与平面的法线向量 $\bold n$ 垂直，即数量积等于零：

$\bold n \cdot \overrightarrow{MM_0}=0$

因为 $\bold n = (A,B,C)$ ， $\overrightarrow{MM_0}=(x-x_0,y-y_0,z-z_0)$ ，所以有：

$A(x-x_0)+B(y-y_0)+C(z-z_0)=0$

此方程是由平面上已知一点 $M_0(x_0,y_0,z_0)$ 和该平面的法线向量 $\bold n = (A,B,C)$ 确定的，所以该方程叫做平面的点法式方程。

由上可知，平面的点法式方程是x，y，z的一次方程，而任意一平面都可以用它上面的一点及法线向量来确定，所以任一平面都可以用三元一次方程来表示。设有一般三元一次方程：

$Ax+By+Cz+D=0\qquad(1)$

任取满足该方程的一组数 $x_0,y_0,z_0$ ，即

$Ax_0+By_0+Cz_0+D=0\qquad(2)$

上述两式相减，得

$A(x-x_0)+B(y-y_0)+C(z-z_0)=0\qquad(3)$

方程 $(3)$ 和上面的点法式方程作比较，可知方程 $(3)$ 即为点法式方程，而方程 $(3)$ 又和方程 $(1)$ 经过加减已知的 $(2)$ 可以互相得到，所以方程 $(1)$ 和 $(3)$ 是同解方程。由此可知，任一三元一次方程的图形总是一个平面，而其中x，y，z的系数就是该平面的法线向量 $\bold n$ ，即 $\bold n = (A,B,C)$ 。

上述的证明限制在三维空间中，可以用三元一次方程表示。而在上述列向量 $X$ 所确定的n维空间中，亦可以用 $x_1,x_2,\cdots,x_j,\cdots,x_n$ 的n元一次方程确定一个n维超平面：

$w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i = 0$

同理，变量的系数就是该超平面的法向量 $W^{T}_i=(w_i_1,w_i_2,w_i_j,\cdots,w_i_n)$ 。

上述的证明可以更好的从几何的意义上理解单层感知机具有分类能力，且只能解决线性的二分类问题。

三、感知机的学习策略

假设训练数据集是线性可分的，感知机的学习目标就是确定一个能够将训练集正实例点和负实例点完全分离的超平面，也就是将训练集的输入 $W^{T}_iX-b_i$ 正确地分类到+1和-1两个类别中。

$o_i=sgn(\sum_{j=1}^nw_i_jx_j-b_i)=sgn(W^{T}_iX-b_i)=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

所以需要确定感知机的参数：权值向量 $W_i = (w_i_1,w_i_2,w_i_j,\cdots,w_i_n)^T$ 和阈值 $b_i$ (几何意义上的超平面截距)和定义一个损失函数（loss function）并将损失函数极小化。

分类问题损失函数的确定的一个自然想法是：误分类点的个数。使误分类点的个数达到最少即完成了感知机的分类目标。但是这样的损失函数是离散的，并不是参数 $W_i$ 和 $b_i$ 的连续可导函数，所以不易进行优化求取极小值。

另一个损失函数选择是：误分类点到超平面的总距离。（因为可能有多个被误分类的点，所以这里的“总”指的是它们的距离之和。）误分类点到超平面的总距离越小，即代表被误分类的点越少。这是感知机所采用的损失函数。

在三维空间中，点 $M_0(x_0,y_0,z_0)$ 到平面 $Ax+By+Cz+D=0$ 的距离表示为：

$d = \frac{\mid Ax_0+By_0+Cz_0+D \mid}{\sqrt{A^2+B^2+C^2}}$

这里不再给出点到平面的距离公式证明。同理，将此距离公式推广到n维空间，则n维空间中样本点 $X(x_1,x_2,\cdots,x_n)$ 到超平面 $w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i = 0$ 的距离为：

$\frac{\mid w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i \mid}{\sqrt{w_i_1^2+w_i_1^2+\cdots+w_i_n^2}}=\frac{1}{\mid\mid W^{T}_i \mid\mid}\mid W^{T}_iX-b_i \mid$

这里的 $X$ 就等价于模型的输入向量。其中 $\mid\mid W^{T}_i \mid\mid$ 为权值向量 $W^{T}_i$ 的 $L_2$ 范数，即向量的模长。

对于模型的输入 $W^{T}_iX-b_i$ ，输出为：

$sgn(W^{T}_iX-b_i)=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

激励函数(即符号函数)会将输入映射为两类输出标签，即输出

$y_i=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

对于误分类数据来说，输入 $W^{T}_iX-b_i \geq0$ 结果被分到-1标签，即 $y_i=-1$ ；输入 $W^{T}_iX-b_i <0$ ，结果却被分到+1标签，即 $y_i = +1$ 。那么有以下式子恒成立：

$-y_i(W_i^TX-b_i)>0$

那么根据以上分析，误分类的样本点到超平面的距离是：

$-\frac{1}{\mid\mid W^{T}_i \mid\mid}y_i\mid W^{T}_iX-b_i \mid$

设误分类样本点集合为 $M$ ，且不考虑 $\frac{1}{\mid\mid W^{T}_i \mid\mid}$ ，就得到了感知机的损失函数：

$\bold {L(W_i^T,b_i)=-\sum_{X\in M}y_i(W_i^TX-b_i)}$

显然，损失函数是非负的。没有误分类点是损失函数是零。有误分类点时，误分类点越少，误分类点离超平面越近，损失函数的值就越小。

四、感知机的学习算法

感知机的学习问题就是求解损失函数的最优化问题，方法是随机梯度下降法。首先求出损失函数 $L(W_i^T,b_i)$ 的梯度：

$\nabla_w L(W_i^T,b_i) = -\sum_{X\in M}y_iX$

$\nabla_b L(W_i^T,b_i) = \sum_{X\in M}y_i$

再随机选取一个误分类点 $(X_i,y_i)$ ，用 $t$ 表示迭代次数， $\eta$ 表示学习率，对 $W_i^T$ 和 $b_i$ 进行迭代更新：

$\bold{W_i^T(t+1) = W_i^T(t)+\eta y_iX_i}$

$\bold{b_i(t+1) = b_i(t)-\eta y_i}$

这种学习算法几何上的直观解释为：当一个样本点被误分类时，即位于超平面的错误一侧时，则根据上式迭代调整 $W_i^T$ 和 $b_i$ ，使超平面向该误分类点的一侧移动，以减少误分类点和超平面的距离，直至迭代到合适的 $W_i^T$ 和 $b_i$ 使得超平面越过该误分类点使其被正确分类。

例题：有某数据集，其正实例点为 $X_1=(3,3)^T$ ， $X_2=(4,3)^T$ ，负实例点为 $X_3=(1,1)^T$ ，学习率 $\eta=1$ ，求感知机模型 $f(X)=sgn(W^{T}_iX-b_i)$ 。

解：（1）首先随机选取初值： $W^{T}_i(0)=(0,0)$ ， $b_i(0)=0$

（2）判断实例点是否被正确分类：

对 $X_1=(3,3)^T$ ， $W^{T}_i(0)X_1-b_i(0)=0$ ，未被正确分类，迭代 $W^{T}_i,b_i$

$W^{T}_i(1)=W^{T}_i(0)+y_1X_1=(3,3),b_i(1)=b_i(0)-y_1=-1$

（3）对于新的 $W^{T}_i(1)$ 和 $b_i(1)$ 确定的新的超平面，再次判断实例点是否被正确分类：

对 $X_1=(3,3)^T$ ， $f(X_1)=sgn[W^{T}_i(1)X_1-b_i(1)]=+1$ ，被正确分类；

对 $X_2=(4,3)^T$ ， $f(X_2)=sgn[W^{T}_i(1)X_2-b_i(1)]=+1$ ，被正确分类；

对 $X_3=(1,1)^T$ ， $f(X_3)=sgn[W^{T}_i(1)X_3-b_i(1)]=+1$ ，未被正确分类，迭代 $W^{T}_i,b_i$

$W^{T}_i(2)=W^{T}_i(1)+y_3X_3=(2,2),b_i(2)=b_i(1)-y_3=0$

$\bold{\vdots}$

重复（2）（3）过程，直至三个实例点都被正确分类，得到最终迭代结果：

$W^{T}_i(7)=(1,1)$ ， $b_i(7)=3$

即最终所确定的感知机模型为： $f(X)=sgn[(1,1)(x_1,x_2)^T-3]=sgn(x_1+x_2-3)$

分离超平面为： $x_1+x_2-3=0$

例题代码：

import numpy as np
import matplotlib.pyplot as plt

train = [((3,3),1),((4,3),1),((1,1),-1)]
feature = []
label = []
xpoints=[]
ypoints=[]

for data in train:
    feature.append(data[0])
    label.append(data[1])   #提取特征和标签数据
    xpoints.append(data[0][0])
    ypoints.append(data[0][1])  #提取x，y坐标用于后面的画图

feature = np.array(feature)
label = np.array(label) #将特征和标签数据转化为numpy数组

w = np.array([0,0])
b=0
eta = 1 #初始化w，b，eta学习率设为1

flag = True #设置标记用于结束迭代
num = 0 #记录迭代次数
while flag:
    count = len(feature)  
    for i in range(len(feature)):
        if -label[i]*( np.dot(w,feature[i].T) + b) >= 0:  #如果数据被误分类
            w = w + eta*label[i]*feature[i].T
            b = b + eta*label[i]    
            num = num + 1
            print("第{}次迭代:w={},b={}".format(num,w,b))   #迭代并输出迭代后的w和b
        else:
            count = count - 1   #conut循环减1，减到0时表示所有数据都分类成功
        
        if count == 0:
            flag = False   #如果所有数据都分类成功。停止循环迭代
print("共迭代{}次，最终迭代结果:w={},b={}".format(num,w,b)) #输出最终结果

x = np.linspace(-5,+5,50)
y = -(w[0]*x + b)/w[1]
plt.plot(x,y)
plt.plot(xpoints,ypoints,'o',)
plt.show()  #画出示意图

输出结果：