DataWhale深度学习（三）前馈神经网络

最新推荐文章于 2023-06-03 01:53:28 发布

快乐星球小怪兽

最新推荐文章于 2023-06-03 01:53:28 发布

阅读量1.5k

点赞数

分类专栏：深度学习文章标签：神经网络感知器模型 BP算法误差反向传播激活函数

本文链接：https://blog.csdn.net/Kay_Xiaohe_He/article/details/121472015

版权

深度学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

前馈神经网络

1 神经元模型
2 感知器模型
- 2.1 单层感知器
- 2.2 多层感知器
3 误差反向传播算法（BP算法）
参考

1 神经元模型

1943 年，美国神经生理学家沃伦·麦卡洛克( Warren McCulloch ) 和数学家沃尔特 ·皮茨(Walter Pitts )对生物神经元进行建模，首次提出了一种形式神经元模型，并命名为McCulloch-Pitts模型，即后来广为人知的M-P模型。
在这里插入图片描述
在M-P模型中，神经元可以接受多个其他神经元的输出作为输入 $x=\{x_1,x_2,\dots,x_n\}$ ，对这些信号进行加权求和，即 $\sum_iw_ix_i$ ，将获得的结果与阈值 $\theta$ 相比，然后经过激活函数的非线性处理，获得最终的输出： $y=f(\sum_iw_ix_i-\theta)$ M-P 模型可以表示多种逻辑运算，如取反运算、逻辑或、逻辑与:

取反运算：神经元只有一个单元，当输入为1时，输出为0；当输入为0时，输出为1。因此神经元的权值和阈值分别为： $w=-2,\theta=-1$ 。最终的计算公式为： $y = f (- 2 x + 1)$
逻辑或：神经元可以有多个输入，以两个输入为例。只有当两个输入均为0时，输出才为0，否则输出为1。因此神经元的权值和阈值为： $w_1=1,w_2=1,\theta=1$ ，则最终公式为 $y=f(x_1+x_2-1)$
逻辑与：只有当两个输入为1时，输出为1，否则输出为0。因此神经元的权值和阈值为： $w_1=1,w_2=1,\theta=1.5$ ，则最终公式为： $y=f(x_1+x_2-1.5)$

由神经元构成的人工神经网络模型的结构可表示如下：
在这里插入图片描述
M-P模型的需要人为先确定每个神经元的权值才能进行网络的计算。

2 感知器模型

2.1 单层感知器

与M-P模型需要人为确定权值参数不同的是，1958年罗森布拉特提出的感知器不需要人为确定参数，可以通过训练自动确定参数。训练方式为有监督学习，然后根据实际输出与期望输出之差对参数进行修正，即误差修正学习： $\hat{y}=f(wx-\theta) \\ w_i \leftarrow w_i+\alpha (y-\hat{y})x \\ \theta \leftarrow \theta-\alpha (y-\hat{y})$ 其中 $\alpha$ 为学习率， $y$ 和 $\hat{y}$ 分别为期望输出和实际输出， $f(\cdot)为激活函数$ 。
在这里插入图片描述

当实际输出 $\hat{y}=0$ ，期望输出 $y = 1$ 时（未激活）
- 减小 $\theta$
- 增大 $x_i=1$ 的链接权重 $w_i$
- $x_i=0$ 的链接权重不变
当实际输出 $\hat{y}=1$ ，期望输出 $y = 0$ 时（激活过度）
- 增大 $\theta$
- 减小 $x_i=1$ 的链接权重 $w_i$
- $x_i=0$ 的链接权重不变

感知器模型的训练过程如下：

训练准备

准备训练样本 $x=\{x_1,x_2,\dots,x_n\}$ 和对应标签 $y=\{ y_1, y_2, \dots ,y_n\}$ ，
初始化参数 $w_i$ 和 $\theta$

迭代训练学习，不断调整参数，直到误差为0或者小于某个指定的数值

逐个喂入训练样本，计算实际输出 $\hat{y}$ ；
计算实际输出与期望输出之间的误差 $y-\hat{y}$ ；
实际输出和期望输出相等时，保持参数不变，返回第1步；
实际输出与期望输出不同时 $w_i\leftarrow w_i+\alpha (y-\hat{y})x \\ \theta \leftarrow \theta-\alpha (y-\hat{y})$
返回第1步，重复上述步骤

2.2 多层感知器

可以发现，单层感知器模型只有单层的输入和输出，只能进行线性处理，不能解决线性不可分问题，为了处理非线性可分问题，我们需要利用多层感知器模型进行非线性运算。仅仅使用神经元进行不同层的组合依然是线性组合，对每层用激活函数进行非线性变换后再连接，才能获得非线性链接。
在这里插入图片描述
多层感知器模型指由多层结构的感知器递阶组成的输入值向前传播的网络，也被称为前馈网络或正向传播网络。
以三层结构的多层感知器为例，它由输入层、中间层及输出层组成：

各层之间通过权重对各单元进行连接
各层通过阈值计算其输出值
前一层的输出值作为后一层的输入值

3 误差反向传播算法（BP算法）

对多层感知器模型的训练使用误差反向传播算法(Error Back Propagation)，即BP算法。BP算法最早有沃博斯于1974年提出，鲁梅尔哈特等人进一步发展了该理论。

3.1 基本过程

BP算法过程分为两大部分：

前向传播计算：从输入层开始，向前逐层计算每层的输出结果，并由输出层输出网络的最终结果。
误差反向传播：获得网络的输出结果后，从后往前，将实际输出与期望输出之间的误差逐层传递，直达输入层。传递过程中，对模型的参数逐层进行更新。

这样反复进行“前向传播计算”和误差反向传播“，对模型进行训练，一步步优化模型参数。

BP算法就是先通过随机化的参数，获得模型的输出，再与期望输出计算得到误差，然后将误差从输出层逐层反向传播得到各层的误差，然后根据每层的误差调整每层的连接权重，权重的调整主要通过梯度下降法： $\Delta \omega=-\alpha \frac{\partial E}{\partial \omega}$

一个BP算法的示例：
以包含一个中间层和一个输出单元 $y$ 的三层感知器模型为例： $\omega_{1ij}$ 表示输入层与中间层之间的连接权重， $\omega_{2j1}$ 表示中间层与输出层之间的连接权重， $i$ 表示输入层感知器单元， $j$ 表示中间层感知器单元。
在这里插入图片描述

第一步，调整中间层与输出层之间的连接权重，其中 $y=f(u_{21})$ ， $f(\cdot)$ 是激活函数Sigmod， $u_{21}=\sum_{j=1}^{m} \omega_{2j1}z_j$ ， $z_j$ 是中间层的值，把误差函数 $E$ 对连接权重 $\omega_{2j1}$ 的求导展开成符合函数求导： $\frac{\partial E}{\partial{\omega_{2j1}}} = \frac{\partial E}{\partial y} \cdot \frac{\partial y}{\partial u_{21}} \cdot \frac{u_{21}}{\partial w_{2j1}} = -(\hat{y}-y)\cdot y(1-y)\cdot z_j$

中间层到输出层的连接权重调整如下： $\Delta \omega_{2j1}=\alpha(\hat{y}-y)y(1-y)z_j$
第二步，调整输入层与中间层的连接权重，其中 $z_j=f(u_{1j}),u_{1j}=\sum_i^nw_{1ij}x_i$ ： $\frac{\partial E}{\partial \omega_{1ij}} = \frac{\partial E}{\partial y}\cdot \frac{\partial y}{\partial u_{21}}\cdot \frac{\partial u_{21}}{\partial \omega_{1ij}} \\= \frac{\partial E}{\partial y}\cdot \frac{\partial y}{\partial u_{21}}\cdot \frac{\partial u_{21}}{\partial z_j}\cdot \frac{\partial z_j}{\partial \omega_{1ij}} \\=\frac{\partial E}{\partial y}\cdot \frac{\partial y}{\partial u_{21}}\cdot \frac{\partial u_{21}}{\partial z_j}\cdot \frac{\partial z_j}{\partial u_{1j}}\cdot \frac{\partial u_{1j}}{\partial w_{1ij}} \\=-(\hat{y}-y)\cdot y(1-y)\cdot \omega_{2j1}\cdot z_j(1-z_j)\cdot x_i$

输入层与中间层的连接权重更新为： $\Delta \omega_{1ij}=\alpha (\hat{y}-y)\cdot y(1-y)\cdot \omega_{2j1}\cdot z_j(1-z_j)\cdot x_i$