机器学习笔记之前馈神经网络(三)M-P神经元模型与感知机的关系

静静的喝酒

已于 2023-03-24 20:20:03 修改

阅读量929

点赞数

分类专栏：机器学习深度学习文章标签：机器学习神经网络人工智能 M-P神经元模型感知机算法参数调整

于 2023-03-24 20:15:12 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/129748636

版权

本文介绍了M-P神经元模型作为前馈神经网络的基本单元，它包括输入信号、权重、阈值和激活函数。激活函数通常使用Sigmoid，因为它在数学处理上更优。感知机算法是一个包含M-P神经元的两层结构，用于逻辑运算。参数学习和调整中，感知机通过错误驱动的方式更新权重，实现正确分类。反向传播算法将在后续章节中介绍。

摘要由CSDN通过智能技术生成

机器学习笔记之前馈神经网络——M-P神经元模型与感知机的关系

引言

引言

从本节开始，介绍反向传播算法( $\text{BackPropagation,BP}$ )，本节将介绍 $\text{M-P}$ 神经元模型与感知机算法的关系。

$\text{M-P}$ 神经元模型

本部分是针对前馈神经网络模型结构上的理论上的补充说明。详见《机器学习》(周志华著)P98。

$\text{M-P}$ 神经元模型由 $\text{1943}$ 年被提出，它是神经网络的基本组成单位：
神经元模型示例

这里的 $x_m(m=1,2,\cdots,\mathcal M)$ 表示 $\mathcal M$ 个其他神经元，如果是输入层，那么 $x_m$ 表示样本特征 $\mathcal X$ 的随机变量集合；对应的 $\mathcal W_m(m=1,2,\cdots,\mathcal M)$ 表示各神经元向神经元 $\mathcal Y$ 传递过程中对应的权重信息。
$\theta$ 被称作阈值( $\text{Threshold}$ )。从逻辑意义的角度观察，它可以看作成一个触发器：一旦神经元 $\mathcal Y$ 接收到的总输入值超过阈值 $\theta$ ，那么神经元 $\mathcal Y$ 就被激活，从而得到神经元 $\mathcal Y$ 的输出结果 $y_{out}$ ：
但从数学意义的角度观察，总输入值 $\sum_{m=1}^{\mathcal M} \mathcal W_mx_m$ 与阈值 $\theta$ 计算了它们之间的偏差 $\sum_{m=1}^{\mathcal M} \mathcal W_mx_m - \theta$ 。也就是说，神经元 $\mathcal Y$ 总是会被激活的，只不过激活的效果视偏差结果而定。
$y_{out} = f \left(\sum_{m=1}^{\mathcal M} \mathcal W_m x_m - \theta\right)$

其中 $f(\cdot)$ 表示激活函数( $\text{Activation Function}$ )。上式表示的具体流程为：
需要注意的点： $x_m(m=1,2,\cdots,\mathcal M)$ 如果不是输出层的神经元，那么它们每个神经元也应存在对应的阈值，只不过上图没有将其画出而已。

神经元 $\mathcal Y$ 将接收到其他 $\mathcal M$ 个其他神经元 $x$ 的输入信号，并通过这些输入信号通过带权重 $\mathcal W$ 的连接( $\text{Connection}$ )向神经元 $\mathcal Y$ 进行传递；
神经元 $\mathcal Y$ 将接收到的总输入结果 $\sum_{m=1}^{\mathcal M} \mathcal W_m x_m$ 与神经元 $\mathcal Y$ 的阈值 $\theta$ 之间进行比较；
最终将比较结果 $\sum_{m=1}^{\mathcal M} \mathcal W_mx_m - \theta$ 通过激活函数处理以产生神经元 $\mathcal Y$ 的输出 $y_{out}$ 。

关于激活函数，理想状态下的激活函数就是指示函数自身：

当比较结果 $\sum_{m=1}^{\mathcal M} \mathcal W_mx_m - \theta>0$ 时，神经元 $\mathcal Y$ 必然以状态 $1$ 的情况下被激活;相反，如果总输入结果 $<$ 阈值时，神经元 $\mathcal Y$ 必然以和状态 $1$ 相反的状态 $0$ 情况下激活。
之所以称之为‘理想状态’，是因为该函数的功能与上面描述的完全一致，没有出现流程错误的可能性。

然而，指示函数自身并不是连续函数，着意味着该函数并非在其定义域内处处可导。如果针对损失函数求解连接权重 $\mathcal W_m(m=1,2,\cdots,\mathcal M)$ 的最优值，上述函数因无法求导而无法对权重信息进行更新，这并不是一个好的性质。

因此，实际上通常使用 $\text{Sigmoid}$ 函数作为激活函数。 $\text{Sigmoid}$ 函数图像表示如下：
关于 $\text{Sigmoid}$ 函数，不仅在‘激活函数’中提到过，在逻辑回归( $\text{Logistic Regression}$ ),以及受限玻尔兹曼机( $\text{Restricted Boltzmann Machine,RBM}$ )——后验概率求解中都提到过相关性质。后续会专门写一篇关于 $\text{Sigmoid}$ 函数的总结。
标记-> 关键词:对数几率函数。
Sigmoid激活函数图像示例
该函数的特点相比指示函数可在其定义域上处处连续、可导，这样在迭代求解连接权重时，能够对连接权重的最优方向进行计算；相反，依然从概率的角度观察， $\text{Sigmoid}$ 激活函数并没有指示函数那样准确和果断：

当总输入结果超过阈值时，我们仅是分配一个 稍微高一点( $> 0.5$ )的神经元激活状态。
相反，当总输入结果小于阈值时，依然存在一定神经元激活状态，只不过和指示函数相比，它们的区别可能小很多。

由于 $\text{Sigmoid}$ 函数能够把较大范围内变化的输入值压缩到 $(0, 1)$ 范围的区间内，因而也称 $\text{Sigmoid}$ 函数为挤压函数 $(\text{Squashing Function})$ 。

而神经网络( $\text{Neural Network}$ )就是这些神经元模型按照一定的层次结构连接起来得到的模型结果。
‘按照一定层次结构’本质上是若干个 $y_j = f \left(\sum_{m=1}^{\mathcal M} \mathcal W_mx_m - \theta_j\right)$