神经网络与深度学习-屈桢深-学习笔记（第二周）

最新推荐文章于 2024-06-30 09:15:00 发布

肆夕五拾乙

最新推荐文章于 2024-06-30 09:15:00 发布

阅读量543

点赞数 14

文章标签：深度学习神经网络学习

本文链接：https://blog.csdn.net/qq_60909870/article/details/137166880

版权

多层前馈网络与误差反传算法

1、多层感知机

1.1 XOR问题

XOR（异或）问题通常指的是一个在机器学习和模式识别中常见的二分类问题。XOR无法进行线性分类，是一种线性不可分问题。

1.2 多层感知机

XOR的解决方法是是使用多层感知机。多层感知机，或者称作多层前馈神经网络，指的是在输入和输出层间加一层或者多层隐单元。三层感知器可识别任一凸多边形或无界的凸区域，更多层感知器网络，可识别更为复杂的图形。三层网络即可解决XOR问题。

多层感知器网络，有如下定理：

定理1：若隐层节点（单元）可任意设置，用三层阈值节点的网络，可以实现任意的二值逻辑函数。

定理2：若隐层节点（单元）可任意设置，用三层S型非线性特性节点的网络，可以一致逼近紧集上的连续函数或按范数逼近紧集上的平方可积函数。

2、BP算法简述

2.1 多层前馈网络

多层感知机是一种多层前馈网络，由多层神经网络构成，每层网络将输出传递给下一层网络。神经元间的权值连接仅出现在相邻层之间，不出现在其他位置。如果每一个神经元都连接到上一层的所有神经元（除输入层外），则成为全连接网络。下面讨论的都是此类网络。

2.2 BP算法简述

多层前馈网络的反向传播（BP）学习算法，简称BP算法，是有监督的学习，它是梯度下降法在多层前馈网中的应用。BP学习算法由正向传播和反向传播组成：

①正向传播是输入信号从输入层经隐层，传向输出层，若输出层得到了期望的输出，则学习算法结束；否则，转至反向传播。

②反向传播是将误差(样本输出与网络输出之差）按原联接通路反向计算，由梯度下降法调整各层节点的权值和阈值，使误差减小。

3、BP算法详述

3.1 BP算法基本思想

BP算法的基本思想是梯度下降算法，计算过程如下：

①设置初始权系数 $w_{0}$ 为较小的随机非零值；

②给定输入/输出样本对，计算网络输出，完成前向传播；

③计算目标函数 $J$ 。如果 $J<\varepsilon$ ，训练成功并退出；否则转入④；

④反向传播计算。由输出层按梯度下降法将误差反向传播，逐层调整权值。

3.2 BP算法推导

假设网络共有L层，其中输入层为第0层，输出层位第L层。记：

①网络中第i层输出： $a^{[i]}=f(z^{[i]})$ ，其中 $z^{[i]}$ 为该层的线性输出；

②第i层第j个节点线性输出： $z_{j}^{[i]} = \sum_{k} w_{jk}^{[i]}a_{k}^{[i-1]}$ ，其中 $w_{jk}^{[i]}$ 为连接第i层第j个节点和第i-1层第k个节点的权值；

③网络中第i层线性输出： $z^{[i]}=W^{[i]}a^{[i-1]}$ ，其中 $W$ 为权矩阵，列数为上层神经元数目，行数为本层神经元数目；

④算法输入输出样本对： $\left \{ x^{(1)},y^{(1)} \right \},\left \{ x^{(2)},y^{(2)} \right \},...,\left \{ x^{(N)},y^{(N)} \right \}$ ，共N个样本。

3.2.1 前向传播

考虑含一层隐含层的二层神经网络，对于第i层第j个神经元，其输出为：

$a_{i}=f(w^{[2]}\cdot a^{[1]})=f(\sum_{k=0}^{n}w_{jk}^{2}\cdot a_{k}^{[1]}))$

其中，f可选取LogSigmoid函数 $\sigma =\frac{1}{1+e^{-x}}$ 。接着需要计算 $\Delta w_{k} = -\alpha \frac{dJ}{dw}$ 。

3.2.2 误差反传

①初始化： $i = L$ ；

②如果 $i = L$ ，则 $\delta _{j}^{[i]} = a_{j}(1-a_{j})e_{j}$ ；否则， $\delta_{j}^{[i]} = \left [ \sum_{k=1}^{m}w_{kj}^{[i+1]}\delta _{k}^{[i+1]} \right ](a_{j}^{[i]})$