神经网络之误差反向传播算法推导

最新推荐文章于 2022-02-10 15:01:38 发布

!Polaris

最新推荐文章于 2022-02-10 15:01:38 发布

阅读量2.3k

点赞数 2

分类专栏：深度学习文章标签：深度学习神经网络算法梯度下降法误差反向传播

本文链接：https://blog.csdn.net/qq_40905198/article/details/119857581

版权

深度学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

本文深入解析误差反向传播算法在多层感知器中的应用，介绍了误差函数、激活函数的选择，以及权重和偏置的梯度下降更新规则。通过详细推导权重w1ij的变化值，展示了误差从输出层反向传播到输入层的过程，从而理解如何调整网络参数以减小误差。此外，还提及了不同误差函数和激活函数的选择对算法的影响。

摘要由CSDN通过智能技术生成

原理

误差反向传播算法是通过误差函数计算实际输出值与期望输出值之间的误差，把误差从最后的输出层依次传播到之前各层，最后通过调整各层连接权重与偏置达到减小误差的目的。而权重和偏置的调整一般使用梯度下降法。

推导前的准备

本文误差反向传播算法的推导以包含隐藏层的多层感知器为例，结构如下图所示：

在这里插入图片描述

这里，图中和推导过程中涉及的符号代表的含义分别为：

符号	含义
$x_i$	输入值
$a_j$	隐藏层激活值
$y_k$	实际输出值
$r_k$	期望输出值
$w_{1ij}$	网络输入层的第i个神经元和下一层网络第j个神经元之间的连接权重
$w_{2jk}$	网络隐藏层的第j个神经元和下一层网络第k个神经元之间的连接权重
$b_j^2$	网络隐藏层第j个神经元的偏置
$b_k^3$	网络输出层第k个神经元的偏置
$u_{1j}$	隐藏层第j个神经元的激活函数的加权输入
$u_{2k}$	输出层第k个神经元的激活函数的加权输入
$E$	误差函数
$\eta$	学习率

这里，误差函数采用最小二乘误差函数，公式如下：
$E=\sum_{n=1}^N||r_n-y_n||^2$
激活函数使用sigmoid函数，公式如下：
$f(u)=\frac{1}{1+e^{-u}}$ 其中，
$u=\sum_{i=1}^Nw_ix_i+b$

开始推导

首先，再明确一下我们的目的是计算使用梯度下降法时神经网络各层间连接权重和偏差的变化值，即 $\Delta w_{1ij},\Delta w_{2jk},\Delta b_j^2$ 等值。
这里，计算过程以求解 $\Delta w_{1ij}$ 为例，其它值类似，而
$\Delta w_{1ij}=\eta\frac{\partial E}{\partial w_{1ij}}$
根据链式求导得：
$\frac{\partial E}{\partial w_{1ij}}=\sum_{k=1}^q (\frac{\partial E}{\partial y_k} \frac{\partial y_k}{\partial u_{2k}} \frac{\partial u_{2k}}{\partial a_j} \frac{\partial a_j}{\delta u_{1j}} \frac{\partial u_{1j}}{\partial w_{1ij}})$
然后逐个对等式右侧各部分求解得：
$\frac{\partial E}{\partial y_k}=-(r_k-y_k)$
$\frac{\partial y_k}{\partial u_{2k}}=f(u_{2k})(1-f(u_{2k}))=y_k(1-y_k)$
$\frac{\partial u_{2k}}{\partial a_j}=w_{2jk}$
$\frac{\partial a_j}{\partial u_{1j}}=a_j(1-a_j)$
$\frac{\partial u_{1j}}{\partial w_{1ij}}=x_i$
最后得：
$\frac{\partial E}{\partial w_{1ij}}=-\sum_{k=1}^q [(r_k-y_k) y_k(1-y_k) w_{2jk} a_j(1-a_j) x_i]$
因此，权重 $w_{1ij}$ 得变化值为：
$\Delta w_{1ij}=\eta \sum_{k=1}^q [(r_k-y_k) y_k(1-y_k) w_{2jk} a_j(1-a_j) x_i]$
根据上述计算过程可以发现，权重的变化值的组成依次为：学习率、误差函数导数、激活函数导数、对应连接权重、激活函数导数和输入值，根据这个规律可以快速写出各层权重和偏差的变化值，例如：
$\Delta w_{2jk} = \eta \sum_{k=1}^q [(r_k-y_k)y_k(1-y_k)aj]$
$\Delta b_j^2 = \eta \sum_{k=1}^q[(r_k-y_k)y_k(1-y_k)w_{2jk}a_j(1-a_j)]$

小结

误差反向传播算法会通过误差函数计算梯度，然后调整权重与偏置，经过反复迭代训练的调整，最终获得最优解。
本文在推导过程中使用的误差函数为最小二乘误差函数，除此以外还有很多其它函数用于计算误差，比如一般多分类问题中使用交叉熵误差函数：
$E=-\sum_{c=1}^C \sum_{n=1}^N r_{cn}lny_{cn}$
二分类中的常用的误差函数为：
$E=-\sum_{n=1}^N [r_nlny_n+(1-r_n)ln(1-y_n)]$
同时，激活函数除sigmoid外还有tanh、ReLU等函数：
$tanh(u)=\frac{exp(u)-exp(-u)}{exp(u)+exp(-u)}$
$R e L U (u) = m a x (u, 0)$

!Polaris

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
神经网络之误差反向传播算法推导

原理误差反向传播算法是通过误差函数计算实际输出值与期望输出值之间的误差，把误差从最后的输出层依次传播到之前各层，最后通过调整各层连接权重与偏置达到减小误差的目的。而权重和偏置的调整一般使用梯度下降法。推导前的准备本文误差反向传播算法的推导以包含隐藏层的多层感知器为例，结构如下图所示：这里，图中和推导过程中涉及的符号代表的含义分别为：符号含义xix_ixi输入值aja_jaj隐藏层激活值yky_kyk实际输出值rkr_krk期望输出值w1
复制链接

扫一扫

专栏目录