误差反向传播算法（BP，Back-Propagation algorithm）(一）

最新推荐文章于 2024-04-26 11:13:33 发布

有梦想的雨

最新推荐文章于 2024-04-26 11:13:33 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/qq_41536160/article/details/122229961

版权

机器学习专栏收录该内容

21 篇文章 15 订阅

订阅专栏

多层感知器网络（MLP）的设计

1.选定层数：通常采用三层网络（因为增加网络层数并不能提高网络的分类能力；

2.输入层：输入层节点数为输入特征的维数 n，激活函数采用线性函数；

3.隐层：隐层可实现非线性分类，其节点数需要设定；一般的，隐层节点数越多，网络的分类能力就越强，激活函数一般采用 Sigmoid 函数；

4.输出层：输出层节点数可以等于类别数，也可采用编码输出的方式（少于类别数），激活函数可使用线性函数或Sigmoid 函数。
在这里插入图片描述

如上图所示，该三层网络的判别函数形式为

$\begin{array}{ll} &Y^3= f_{3}(\sum^{n_2}_{k=1}w_k\cdot Y^2_k-\theta)\\ &\\ & = f_{3}(\sum^{n_2}_{k=1}w_k\cdot \{f_2(\sum^{n_1}_{j=1}w_{kj}\cdot Y^1_j-\theta_k)\}-\theta)\\ &\\ &= f_{3}(\sum^{n_2}_{k=1}w_k\cdot \{f_2(\sum^{n_1}_{j=1}w_{kj}\cdot [f_1(\sum^n_{i=1}w_{ji}\cdot X_i-\theta_j)]-\theta_k)\}-\theta) \end{array}$

其中， $n_2$ 为隐层节点数； $n$ 为输入特征维数。上图只有一个输出单元（两类），当有 c 个输出单元时（c 个类别），网络可视为计算 c 个判别函数 $Y^3_c$ ，通过所有求判别函数的最大值将输入信号分类。此过程是前馈计算过程，是识别过程。

MLP的训练——BP算法

BP算法是实质是一个均方误差最小算法（LMS）。

BP的基础

A.梯度下降法
记神经元 j 在第 n 次迭代（即输入第 n 个训练样本时）的输出为 $y_j(n)$ ，其目标输出值记为 $d_j(n)$ ，则该神经元的输出误差为： $e_j(n)=d_j(n)-y_j(n)$ ，则整个网络输出层 C 的平方差作为损失函数： $\displaystyle E(n)=\frac{1}{2}\sum_{k\in C}e^2_k(n)$ 。求其最小值，可使用如下迭代： $w_{ij}^{k+1}=w_{ij}^{k}+\lambda\cdot\triangle w_{ij}^{k}$ ，当 $\displaystyle\triangle w_{ij}\propto\;-\frac{\partial E}{\partial w_{ij}}$ 时，可使函数值下降最快，更早到达最小。
在这里插入图片描述

B.链式法则 $\displaystyle\frac{\partial f(g(x))}{\partial x}=\frac{\partial f(g(x))}{\partial g(x)}\cdot \frac{\partial g(x)}{\partial x}$

BP的推导

根据上述描述，从神经元 $i$ 到神经元 $j$ 的连接权值 $w_{ji}$ 的迭代公式可设置为：

$\displaystyle w_{ji}(t+1)=w_{ji}(t)+\triangle w_{ji},\;\triangle w_{ji}=-\lambda\cdot\frac{\partial E(n)}{\partial w_{ji}}$
在这里插入图片描述

输出层神经元

若神经元 $j$ 是输出节点，则 $\displaystyle\frac{\partial E(n)}{\partial w_{ji}(n)}=\frac{\partial E(n)}{\partial v_{j}(n)}\cdot\frac{\partial v_j(n)}{\partial w_{ji}(n)}$ ，其中 $\displaystyle\frac{\partial v_j(n)}{\partial w_{ji}(n)}=y_i(n)$ ，
在这里插入图片描述
令 $\displaystyle\delta_j(n)=-\frac{\partial E(n)}{\partial v_{j}(n)}$ ，则：

$\begin{array}{ll} &\displaystyle\delta_j(n)=-\frac{\partial E(n)}{\partial v_{j}(n)}=-\frac{\partial E(n)}{\partial y_{j}(n)}\cdot\frac{\partial y_j(n)}{\partial v_{j}(n)}=-[\frac{\partial E(n)}{\partial e_{j}(n)}\cdot\frac{\partial e_j(n)}{\partial y_{j}(n)}]\cdot\frac{\partial y_j(n)}{\partial v_{j}(n)}\\ &\\ &\displaystyle = -[e_j(n)\cdot(-1)]\cdot\varphi'_j(v_j(n))=e_j(n)\cdot\varphi'_j(v_j(n))\\ \end{array}$

可得， $\displaystyle\frac{\partial E(n)}{\partial w_{ji}(n)}=-e_j(n)\cdot\varphi'_j(v_j(n))\cdot y_i(n)=-\delta_j(n)\cdot y_i(n)$

隐层神经元

在这里插入图片描述

注意，对于 $E (n)$ 中的每个 $e_k(n)=d_k(n)-y_k(n)$ ，每个输出神经元 $k$ 的输入向量都包括 $y_j(n)$ ，故 $\displaystyle\frac{\partial E(n)}{\partial y_{j}(n)}=\frac{\partial [\frac{1}{2}\sum_{k\in C}e^2_k(n)]}{\partial y_{j}(n)}$ ，若将 $y_j(n)$ 视为 $E (n)$ 的函数，则：

$\begin{array}{ll} &\displaystyle\frac{\partial E(n)}{\partial y_{j}(n)}=\frac{\partial [\frac{1}{2}\sum_{k\in C}e^2_k(n)(y_j(n))]}{\partial y_{j}(n)}=\sum_k\{\frac{\partial [\frac{1}{2}e^2_k(n)(y_j(n))]}{\partial y_{j}(n)}\}=\sum_k\{\frac{\partial[\frac{1}{2}e^2_k(n)]}{\partial e_k(n)}\cdot\frac{\partial e_k(n)}{\partial y_k(n)}\cdot\frac{\partial y_k(n)}{\partial v_k(n)}\cdot\frac{\partial v_k(n)}{\partial y_j(n)}\}\\ &\\ &\displaystyle = \sum_k[e_k(n)\cdot(-1)\cdot\varphi'_k(v_k(n))\cdot w_{kj}]=-\sum_k[e_k(n)\cdot\varphi'_k(v_k(n))\cdot w_{kj}]=-\sum_k[\delta_k(n)\cdot w_{kj}]\\ \end{array}$

其中， $\delta_k(n)=e_k(n)\cdot\varphi'_k(v_k(n))$

而对隐层神经元 $j$ ，则有：

$\begin{array}{ll} &\displaystyle\delta_j(n)=-\frac{\partial E(n)}{\partial v_{j}(n)}=-\frac{\partial E(n)}{\partial y_{j}(n)}\cdot\frac{\partial y_j(n)}{\partial v_{j}(n)}\\ &\\ &\displaystyle = -\{-\sum_k[\delta_k(n)\cdot w_{kj}]\}\cdot\varphi'_j(v_j(n))=\varphi'_j(v_j(n))\cdot\sum_k[\delta_k(n)\cdot w_{kj}]\\ \end{array}$

同理，隐层神经元的 $\displaystyle\frac{\partial E(n)}{\partial w_{ji}(n)}=-\delta_j(n)\cdot y_i(n)$ ，其中 $\delta_j(n)$ 是局域梯度，应当注意的是，不同层的局域梯度是不同的。
在这里插入图片描述

BP算法流程

在这里插入图片描述

MPL 的训练过程为：

初始化网络权值（网络连接权重 $w_{ij}$ 、神经元阈值 $\theta_i$ ），一般随机设置为 $[- 1, + 1]$ 之间的数，若无先验知识，可选择均匀分布；若有先验知识，则可根据先验进行初始化；
训练样本的排序：每个训练样本都要输入网络一次，称为回合；在每个回合开始时，对训练样本要进行随机排序；
前馈计算：从输入层到输出层，层层前进，计算每个神经元的局部诱导域和输出函数信号。
第 $h$ 层的神经元 $j$ 的局部诱导域为： $\displaystyle v^{(h)}_j=\sum^{m_h-1}_{i=0}w^{(h)}_{ji}(n)\cdot y^{(h-1)}_i(n)$
第 $h$ 层的神经元 $j$ 的输出函数信号为： $\displaystyle y^{(h)}_j=\varphi_j(v^{(h)}_j)$ ，若神经元 $j$ 在第 1 隐层（输入层，即 $h = 1$ ），则使 $y^{(0)}_j=x_j(n)$ ；若神经元 $j$ 在输出层（ $h = L$ ），则令输出 $o_j(n)=y^{(L)}_j(n)$ 。

并计算误差 $e_j(n)=d_j(n)-y_j(n)$ 。
反向传播误差：从后向前，计算每一层神经元的局域梯度

$\displaystyle\delta_j^{(h)}=\left\{ \begin{aligned} \varphi'_j(v^{(L)}_j(n))\cdot e^{(L)}_j(n), & & {h=L}\\ \varphi'_j(v^{(h)}_j(n))\cdot\sum_k[\delta^{(h+1)}_k(n)\cdot w^{(h+1)}_{kj}(n)], & & {h<L}\\ \end{aligned} \right.$

网络权值与偏置调整，即更新各层神经元与其前面一层神经元的连接权重： $\displaystyle w^{(h)}_{ji}(n+1)=w^{(h)}_{ji}(n)+\lambda\cdot\delta^{(h)}_j\cdot y^{(h-1)}_i(n)$
返回到第 2 步，直到达到终止条件。

BP存在的问题

BP算法的收敛速度较慢；
BP算法只能收敛于局部最优解，不能保证全局最优解；
当隐层神经元的数量足够多时，网络对训练样本的识别率很高，但对测试样本的识别率可能很差，即网络的推广能力可能较差；
隐层单元数目的选取无一般指导原则；
新加入的学习样本会影响已学完样本的学习结果。

后三项问题是针对多层感知器网络存在的问题。

有关BP算法的进一步分析，可参考误差反向传播算法（BP，Back-Propagation algorithm）(二）。

有梦想的雨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
误差反向传播算法（BP，Back-Propagation algorithm）(一）

多层感知器网络（MLP）的设计1.选定层数：通常采用三层网络（因为增加网络层数并不能提高网络的分类能力；2.输入层：输入层节点数为输入特征的维数 n，激活函数采用线性函数；3.隐层：隐层可实现非线性分类，其节点数需要设定；一般的，隐层节点数越多，网络的分类能力就越强，激活函数一般采用 Sigmoid 函数；4.输出层：输出层节点数可以等于类别数，也可采用编码输出的方式（少于类别数），激活函数可使用线性函数或Sigmoid 函数。如上图所示，该三层网络的判别函数形式为Y3=f3(∑k=1n2w
复制链接

扫一扫