深度学习中基本神经网络(一)-CSDN博客

本文链接：https://blog.csdn.net/Zhang_Pro/article/details/105324949

深度学习的神经网络之多层前馈神经网络

1. 简介
2. 推导方法
3. 前馈神经网络的实现
4. 实验设计与试验结果
5. 小结

1. 简介

给定一组神经元，所以说我们可以通过以神经元节点来构建一个神经网络，不同的神经网络有着不同的网络连接拓扑结构。一种比较直接的拓扑结构是前馈神经网络(Feedforward Neural Network，FNN)。最简单的前馈神经网络是三层的BP神经网络，在前馈神经网络中，各个神经元分别属于不同的层。每一层神经元接受上一层的神经元的信号，并产生信号输出到下一层神经网络中。前馈神经网络包含有输入层、中间隐藏层、输出层。前馈神经网络也叫做多层感知层(Multilayer Perceptron，MLP)。
前馈神经网络的网络结构如下所示：
多层前馈神经网络图片

2. 推导方法

2.1 符号定义与表示

在推导公式之前，我们约定以下的表示符号：

$L$ ：表示神经网络的层数；
$m^{(l)}$ ：表示第 $l$ 层神经元的个数；
$f_{l}(\cdot)$ ：表示第 $l$ 层神经元的激活函数；
$W^{(l)}\in \mathbb{R}^{m^{(l)}\times m^{(l-1)}}$ ：表示第 $l - 1$ 层到 $l$ 层的权重矩阵；
$b^{(l)}\in \mathbb{R}^{m^{(l)}}$ ：表示第 $l - 1$ 层到 $l$ 层的偏置；
$z^{(l)}\in \mathbb{R}^{m^{(l)}}$ ：表示第 $l$ 层神经元的净输入(净活性值)；
$a^{(l)}\in \mathbb{R}^{m^{(l)}}$ ：表示第 $l$ 层神经元的输出(活性值)。
$x$ ：输入样本向量
$\hat y$ ：样本向量标签
$y$ ：输出向量

2.2 前向传播过程(forward)

前馈神经网络中每一层的传播过程通过以下公式进行传播：
$z^{(l)}=W^{(l)}\cdot a^{(l-1)}+b^{(l)}$

$a^{(l)}=f_{l}(z^{(l)})$

上面的两个公式可以合并为
$z^{(l)}=W^{(l)}\cdot f_{l-1}(z^{(l-1)})+b^{(l)}$

或者是
$a^{(l)}=f_{l}(W^{(l)}\cdot a^{(l-1)}+b^{(l)})$

所以前馈神经网络通过递推公式逐层传递信息，从而得到最后的网络输出 $z^{(L)}$ 。所以说整个网络可以看作一个符合复合函数 $\phi(\pmb x;\pmb W,\pmb b)$ ，其中 $a^{(0)}=\pmb x$ ，第 $L$ 层的输出 $z^{(L)}=\pmb y$ 。其中 $\pmb W$ 和 $\pmb b$ 分别是网络中的权重矩阵值和偏置矩阵。

2.3 参数学习过程

在深度学习中，模型目标构建的问题一般分为两种问题，即分类学习过程和回归学习过程，其中损失函数在深度学习的过程中有着重要的地位。一般地，在分类学习过程中常常使用交叉熵损失函数，回归学习中常常使用均方差函数损失函数。
训练集 $D=\{(x^{(n)},\hat y^{(n)})\}_{n=1}^{N}$ ，将样本值 $x^{(n)}$ 输入给前馈神经网络，得到的网络输出为 $y^{(n)}$ ，其中在数据集 $D$ 上的结构化风险函数为：
$R(W,b)=\frac{1}{N}\sum\limits_{n=1}^{N}L(y^{(n)},\hat y^{(n)})+\frac{\lambda}{2}||W||_{F}^{2}$

其中 $W$ 和 $b$ 分别表示网络中所有的权重矩阵和偏置向量；超参数 $\lambda>0$ ， $W||_{F}^{2}$ 用来防止过拟合问题。这里的 $W||_{F}^{2}$ 一般使用 $\text{Frobenius}$ 范数：
$||W||_{F}^{2}=\sum\limits_{l=1}^{L}\sum_{i=1}^{m^{(l)}}\sum_{j=1}^{m^{(l-1)}}(w_{ij}^{(l)})^{2}$

有了学习准则和训练样本，网络参数可以通过使用梯度下降的算法来进行学习。其中在梯度下降方法的每次迭代过程中，第 $l$ 层的参数 $W^{(l)}$ 和 $b^{(l)}$ 参数更新方式为
$W^{(l)}=W^{(l)}-\alpha\frac{\partial R(W,b)}{\partial W^{(l)}}\\ =W^{(l)}-\alpha(\frac{1}{N}\sum\limits_{n=1}^{N}\frac{\partial L(y^{(n)},\hat y^{(n)})}{\partial W^{(l)}}+\lambda W^{(l)})$

$b^{(l)}=b^{(l)}-\alpha\frac{\partial R(W,b)}{\partial b^{(l)}} \\=b^{(l)}-\alpha(\frac{1}{N}\sum\limits_{n=1}^{N}\frac{\partial L(y^{(n)},\hat y^{(n)})}{\partial b^{(l)}})$