神经网络与深度学习-多层前馈网络与误差反传算法

最新推荐文章于 2023-11-08 18:39:39 发布

Inpcrs

最新推荐文章于 2023-11-08 18:39:39 发布

阅读量354

点赞数

文章标签：算法深度学习神经网络

本文链接：https://blog.csdn.net/Inpcrs/article/details/129661055

版权

神经网络与深度学习-多层前馈网络与误差反传算法

1. 多层感知机
- 1.1. XOR问题
- 1.2. 多层感知机
2. 多层前馈网络及BP算法简述
- 2.1. 多层前馈网络
- 2.2. BP算法简述
3. BP算法详解
4. 算法扩展
- 4.1. 神经网络分类
- 4.2. 权值正则化
5. 算法评述
5. 总结

1. 多层感知机

1.1. XOR问题

线性不可分问题： 无法进行线性分类。Minsky 1969年提出XOR问题
在这里插入图片描述

1.2. 多层感知机

解决方法： 使用多层感知机

在输入和除数层间加一或多层隐单元，构成多层感知器（多层前馈神经网络）

加一层隐节点（单元）为三层网络，可解决异或（XOR）问题，见图：
在这里插入图片描述

由输入 $\pmb{u}=(u_1,u_2)$ 得到两个隐节点、一个输出层节点的输出：
$\begin{array}{l} y_{1}^{1}=f\left[w_{11}^{1} u_{1}+w_{12}^{1} u_{2}-\theta_{1}^{1}\right] \\ y_{2}^{1}=f\left[w_{21}^{1} u_{1}+w_{22}^{1} u_{2}-\theta_{2}^{1}\right] \\ y=f\left[w_{1}^{2} y_{1}^{1}+w_{2}^{2} y_{2}^{1}-\theta\right] \\ f[\bullet]=\left\{\begin{array}{ll} 1, & \bullet \geq 0 \\ 0, & \bullet<0 \end{array}\right. \\ \end{array}$
可得到：
$\begin{aligned} y_{1}^{1} & =\left\{\begin{array}{ll} 1, & w_{11}^{1} u_{1}+w_{12}^{1} u_{2} \geq \theta_{1} \\ 0, & w_{11}^{1} u_{1}+w_{12}^{1} u_{2}<\theta_{1} \end{array}\right. \\ y_{2}^{1} & =\left\{\begin{array}{ll} 1, & w_{21}^{1} u_{1}+w_{22}^{1} u_{2} \geq \theta_{2} \\ 0, & w_{21}^{1} u_{1}+w_{22}^{1} u_{2}<\theta_{2} \end{array}\right. \\ y & =\left\{\begin{array}{ll} 1, & w_{1}^{2} y_{1}^{1}+w_{2}^{2} y_{2}^{1} \geq \theta \\ 0, & w_{1}^{2} y_{1}^{1}+w_{2}^{2} y_{2}^{1}<\theta \end{array}\right. \end{aligned}$

设网络有如下一组权值和阈值，可得各节点的输出：
$\begin{array}{l} y_{1}^{1}=f\left[1 \cdot u_{1}+1 \cdot u_{2}-0.5\right] \\ y_{2}^{1}=f\left[(-1) \cdot u_{1}+(-1) \cdot u_{2}-(-1.5)\right] \\ y=f\left[1 \cdot y_{1}^{1}+1 \cdot y_{2}^{1}-1.2\right] \end{array}$
在这里插入图片描述
三层感知器可识别任一凸多边形或无界的凸区域

更多层感知器网络，可识别更为复杂的图形

多层感知器网络，有如下定理：

定理1： 若隐层节点（单元）可任意设置，用三层阈值节点的网络，可以实现任意的二值逻辑函数

定理2： 若隐层节点（单元）可任意设置，用三层S型非线性特性节点的网络，可以一致逼近紧集上的连续函数或按范数逼近紧集上的平方可积函数

2. 多层前馈网络及BP算法简述

2.1. 多层前馈网络

多层前馈网络的反向传播（BP）学习算法，简称BP算法，是有导师的学习，它是梯度下降法在多层前馈网中的应用

网络结构： 见图，u、y是网络的输入、输出向量，神经元用节点表示，网络由输入层、隐层和输出层节点组成，隐层可一层，也可多层（图中是单隐层），前层至后层节点通过权联接。由于用BP学习算法，所以常称BP神经网络

在这里插入图片描述

2.2. BP算法简述

已知网络的输入/输出样本，即导师信号
BP学习算法由正向传播和反向传播组成：

正向传播是输入信号从输入层经隐层，传向输出层，若输出层得到了期望的输出，则学习算法结束；否则，转至反向传播
反向传播是将误差(样本输出与网络输出
之差）按原联接通路反向计算，由梯度下
降法调整各层节点的权值和阈值，使误差
减小

3. BP算法详解

3.1. BP算法基本思想

记法（尽量与吴恩达“深度学习”一致）：
(粗整体为向量或矩阵，一般斜体为变量)

层：用上标 $\left[l\right]$ 表示，共 $L$ 层。其中输入为第0层，输出为 $L$ 层

网络输出： $y^=a[L]=a \pmb{\hat{y}=a^{[L]}=a}$

网络输入： $y^=a[0]=x \pmb{\hat{y}=a^{[0]}=x}$

网络中第l层输出： $a[l]=f(z[l]) \pmb{a^{[l]}=f(z^{[l]})}$ ，选取作用函数为Sigmoid函数，则可即为： $a[l]=σ(z[l]) \pmb{a^{[l]}=\sigma(z^{[l]})}$

权值连接： $w_{ij}^{[l]}$ ，表示连接第 $l$ 层第 $i$ 个节点和第 $l - 1$ 层第 $j$ 个节点的权值

设算法的输入输出样本（导师信号）为：
$\{x^{(1)},y^{(1)}\},\{x^{(2)},y^{(2)}\},\cdots\{x^{(N)},y^{(N)}\}$ 即共 $N$ 个样本。或记为： $\{x^{(i)},y^{(i)}\},i=1,\cdots N$

网络训练的目的，是使对每一个输入样本，调整网络参数，使输出均方误差最小化。这是一个最优化问题

选取： $J(x^{(i)};w)=\frac{1}{2}(y^{(i)}-\hat{y}^{(i)}(x;w))^2=\frac{1}{2}(y^{(i)}-a^{(i)}(x;w))^2$

考虑迭代算法，设初始权值为 $w_0$ , $k$ 时刻权值为 $w_k$ , 则使用泰勒级数展开，有：
$J(w_{k+1})=J(w_k)+\left[\frac{dJ}{d \theta}\right]^T\varDelta w_k+\cdots$

问题： 如何选择 $\varDelta w_k$ ，使 $J$ 最小

最直接的方法就是选择 $\varDelta w_k=-\alpha\frac{dJ}{dw},0<\alpha\le1$

这样每一步都能保证 $J(w_{k+1})\le J(w_k)$ ，从而使 $J$ 最终可收敛到最小。

这就是梯度下降算法，也是BP学习算法的基本思想

设置初始权系数 $w0 \pmb{w_0}$ 为较小的随机非零值
给定输入/输出样本对，计算网络输出, 完成前向传播
计算目标函数 $4$ 。如 $J<\varepsilon$ ，训练成功，退出；否则转入4
反向传播计算由输出层，按梯度下降法将误差反向传播，逐层调整权值

3.2. BP算法推导

3.2.1. 前向传播

考虑三层神经网络。对于当前样本

隐含层输出： 对于第 $l$ 层第 $i$ 个神经元， $w^l_{ij}x_j$
$a_i^{[l]}=f\left(z_i^{[l]}\right)=f\left(\mathbf{w}_i^{[l]} \cdot \mathbf{a}^{[l-1]}\right)=f\left(\sum_{j=0}^n w_{i j}^{[l]} \cdot a_j^{[l-1]}\right)$
$f$ 可选取为Log Sigmoid函数 $f=\frac{1}{1+e^{-x}}$

假设仅有一层隐层，则输出：
$$$$
计算误差： $e = y - a$

第i个输出： $e_i=y_i-a_i^{[2]}$

我们要计算： $\varDelta w_k=-\alpha\frac{dJ}{dw}$ ，

因此需要求： $\frac{dJ}{dw}|_{w=w_k}$

3.2.2. 误差反传

3.2.2.1. 输出层

首先考虑输出层权值 $w^{[2]}$ 。根据链式求导法则：
$\frac{\partial J}{\partial w_{ij}^{[2]}}=\left[\frac{\partial J}{\partial e}\right]^T\frac{\partial e}{\partial w_{ij}^{[2]}},\frac{\partial J }{\partial e}=e$

在这里插入图片描述

注意到 $w_{ij}^{[2]}$ 仅和 $y_i$ 有关，(看神经网络图)，因此：
$\frac{\partial \mathbf{e}}{\partial w_{i j}^{[2]}}=\left[\frac{\partial e_1}{\partial w_{i j}^{[2]}}, \cdots, \frac{\partial e_i}{\partial w_{i j}^{[2]}}, \cdots \frac{\partial e_m}{\partial w_{i j}^{[2]}}\right]^{\mathrm{T}}=\left[0, \cdots, \frac{\partial e_i}{\partial w_{i j}^{[2]}}, \cdots 0\right]^{\mathrm{T}}$
进一步根据Log Sigmoid函数性质有： $\begin{aligned} \frac{\partial J}{\partial w_{i j}^{[2]}} & =-e_i \frac{\partial a_i}{\partial w_{i j}^{[2]}}=-e_i a_i\left(1-a_i\right) a_j^{[1]} \\ \Delta w_{i j}^{[2]}(k) & =-\alpha \frac{\partial J}{\partial w_{i j}^{[2]}}=\alpha \cdot a_i\left(1-a_i\right) e_i \cdot a_j^{[1]} \end{aligned}$ 令 $\delta_i^{[2]}=a_i(1-a_i)e_i$ ，和Hebb规则类比则有： $\varDelta w_{ij}^{[2]}(k)=\alpha \delta_i^{[2]}\cdot a_j^{[1]}$

3.2.2.2. 隐含层

注意到 $w^{[1]}_{ij}$ 仅和 $a_i^{[1]}$ 有关,因此
$\begin{gathered} \frac{\partial J}{\partial w_{i j}^{[1]}}=\left[\left[\frac{\partial J}{\partial \mathbf{e}}\right]^{\mathrm{T}} \frac{\partial \mathbf{e}}{\partial a_i^{[1]}}\right] \frac{\partial a_i^{[1]}}{\partial w_{i j}^{[1]}} \\ \frac{\partial \mathbf{e}}{\partial a_i^{[1]}}=-\frac{\partial \mathbf{y}}{\partial a_i^{[1]}}=\left[\frac{\partial y_1}{\partial a_i^{[1]}}, \cdots \frac{\partial y_m}{\partial a_i^{[1]}}\right]^{\mathrm{T}} \end{gathered}$
以 $y_m$ 为例说明求法。由 $y_m$ 表达式(见前向传播），有：
$\frac{\partial y_m}{\partial a_i^{[1]}}=f^{\prime}\left(\sum_{j=1}^n w_{m j}^{[2]} a_j^{[1]}\right) \frac{\partial\left(\sum_{j=1}^n w_{m j}^{[2]} a_j^{[1]}\right)}{\partial a_i^{[1]}}=f^{\prime}\left(z_m^{[2]}\right) w_{m i}^{[2]}$
根据Sigmoid函数性质，同时利用 $a_m=f(z_m^{[2]})$ ，有：
$\begin{gathered} f^{\prime}\left(z_m^{[2]}\right)=a_m\left(1-a_m\right) \\ {\left[\frac{\partial j}{\partial \mathbf{e}}\right]^{\mathrm{T}} \frac{\partial \mathbf{e}}{\partial a_i^{[1]}}=\sum_{j=1}^m \frac{\partial J}{\partial e_j} \cdot \frac{\partial e_j}{\partial y_j} \cdot \frac{\partial y_j}{\partial a_i^{[1]}}=-\sum_{j=1}^m a_j\left(1-a_j\right) w_{j i}^{[2]} e_j} \end{gathered}$
即误差进行反向传播：
$\frac{\partial a_i^{[1]}}{\partial w_{ij}^{[1]}}=a_i^{[1]}(1-a_i^{[1]})x_j$
综合上述结果，有：
$\Delta w_{i j}^{[1]}(k)=\alpha\left[\sum_{j=1}^m w_{j i}^{[2]} a_j\left(1-a_j\right) e_j\right] a_i^{[1]}\left(1-a_i^{[1]}\right) x_j$
令：
$\delta_i^{[1]}=\left[\sum_{j=1}^m w_{j i}^{[2]} \delta_j^{[2]}\right]\left(a_i^{[1]}\right)$
则和Hebb规则类比：
$\Delta w_{i j}^{[1]}(k)=\alpha \delta_i^{[1]} \cdot x_j$

3.2.2.3. 总结

如果当前是输出层： $\delta_i^{[L]}=a_i(1-a_i)e_i$ 隐含层(按从后向前顺序更新)： $\delta_i^{[L]}=\left[\sum\limits_{j=1}^mw_{ji}^{[l+1]}\delta_j^{[l+1]}\right](a_i^{[l]})$ 然后更新： $\varDelta w_{ij}^{[l]}(k)=\alpha\cdot\delta_i^{[l]}\cdot a_j^{[l-1]},a_j^{[0]}=x_j$

4. 算法扩展

4.1. 神经网络分类

考虑输出层为先行节点（单输出）： $J(w)=\frac{1}{2N}\sum\limits^N_{i=1}(a^{(i)}-y^{(i)})^2$
容易计算： $\frac{\partial}{\partial w_j^{[2]}}J(w)=\frac{1}{N}\sum\limits^N_{i=1}\left[a^{(i)}-y^{(i)}\right]a_j^{[1]}$
考虑二分类问题（单输出）： $J(\mathbf{w})=\frac{1}{N} \sum_{i=1}^{N} L\left(a^{(i)}, y^{(i)}\right)=-\frac{1}{N} \sum_{i=1}^{N}\left[y^{(i)} \log a^{(i)}+\left(1-y^{(i)}\right) \log \left(1-a^{(i)}\right)\right]$
注意到： $\begin{aligned} & y^{(i)} \log a^{(i)}+\left(1-y^{(i)}\right) \log \left(1-a^{(i)}\right) \\ = & y^{(i)} \log \left(\frac{1}{1+e^{-\left(\mathbf{w}^{[2]}\right)^{\mathrm{T}} \mathbf{a}^{(i)}}}\right)+\left(1-y^{(i)}\right) \log \left(1-\frac{1}{1+e^{-\left(\mathbf{w}^{[2]}\right)^{\mathrm{T}} \mathbf{a}^{(i)}}}\right) \end{aligned}$
进一步可计算： $\frac{\partial}{\partial w_j^{[2]}}J(w)=\frac{1}{N}\sum\limits^N_{i=1}\left[a^{(i)}-y^{(i)}\right]a_j^{[1]}$

4.2. 权值正则化

加入正则项： $J(w)=\frac{1}{N}\sum\limits^N_{i=1}(a^{(i)},y^{(i)})+\frac{\lambda}{2P}||w||^2$ 可计算： $\frac{\partial}{\partial w_j^{[2]}}J(w)=\frac{1}{N}\sum\limits^N_{i=1}\left[a^{(i)}-y^{(i)}\right]x_j^{(i)}+\frac{\lambda}{P}w_j^{[2]}$