神经网络——反向传播算法公式推导

早春的树丶

已于 2023-06-02 17:09:27 修改

阅读量1.9k

点赞数 3

分类专栏：深度学习文章标签：算法神经网络机器学习

于 2023-03-15 09:58:40 首次发布

本文链接：https://blog.csdn.net/qq_42733778/article/details/129501294

版权

深度学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

神经网络之反向传播算法

前言
一、输出层梯度推导
- 权重
- 偏置
二、隐含层梯度推导
- 权重
- 偏置

前言

本文基于三层神经网络结构，对神经网络的反向传播算法进行简单的公式推导，旨在加深对反向传播算法原理的理解。如有错误，欢迎指正。
首先对公式推导中的一些常量和符号进行定义：

网络层	下标	神经元数量
输入层	i	l
隐含层	j	m
输出层	k	n

简化结构图如下：
三层神经网络结构图

除此之外，权重记为w，如输入层到隐含层的权重为 $w_{ij}$ ，隐含层到输出层的权重为 $w_{jk}$ ; 偏置记为b，如隐含层的偏置记为 $b_j$ ，输出层的偏置记为 $b_k$ ；误差记为E；u代表权重与输入的乘积，y代表输入u经过激励函数 f 而得到的结果，即 y = f(u) 。
定义 δ $\frac{∂E}{∂y}·\frac{∂y}{∂u} = \frac{∂E}{∂u}$

在反向传播开始之前，神经元的损失函数与激励函数已经确定，训练过程中只有权重 w 与 b 在动态变化，故对于输出层： $\frac{∂E}{∂y_k}$ 与 $\frac{∂y_k}{∂u_{jk}}$ 皆为定值，即 $δ_k = \frac{∂E}{∂y_k}·\frac{∂y_k}{∂u_k} = \frac{∂E}{∂u_k} = 常量$

一、输出层梯度推导

在这里插入图片描述

注意：图中的u_k代表 $u_k$ ，y_k代表 $y_k$

权重

输出层梯度推导过程如下：
$\frac{∂E}{∂w_{jk}} = \frac{∂E}{∂y_k}·\frac{∂y_k}{∂w_{jk}} = \frac{∂E}{∂y_k}·\frac{∂y_k}{∂u_k}·\frac{∂u_k}{∂w_{jk}} = δ_k·\frac{∂u_k}{∂w_{jk}} \\ = δ_k · \frac{∂(\sum_{q=1}^m y_q w_{qk}+b_k)}{∂w_{jk}} = δ_k·y_j$

偏置

$\frac{∂E}{∂b_k} = \frac{∂E}{∂y_k}·\frac{∂y_k}{∂b_k} = \frac{∂E}{∂y_k}·\frac{∂y_k}{∂u_k}·\frac{∂u_k}{∂b_k} = δ_k·\frac{∂u_k}{∂b_k} \\ = δ_k· \frac{∂(\sum_{q=1}^m y_q w_{qk}+b_k)}{∂b_k} = δ_k· 1 = δ_k$

( $δ_k$ 在前言中已知为常量)

二、隐含层梯度推导

神经网络反向传播算法中间层结构

权重

$\frac{∂E}{∂w_{ij}} = \frac{∂E}{∂y_j}·\frac{∂y_j}{∂w_{ij}} = \frac{∂E}{∂y_j}·\frac{∂y_j}{∂u_j}·\frac{∂u_j}{∂w_{ij}} = δ_j·\frac{∂u_j}{∂w_{ij}} \\ = δ_j·\frac{∂u_j}{∂w_{ij}} = δ_j· \frac{∂(\sum_{p=1}^l y_p w_{pj}+b_j)}{∂w_{ij}} = δ_j·y_i$
其中，
$δ_j = \frac{∂E}{∂u_j}= \frac{∂E}{∂y_j}·\frac{∂y_j}{u_j} =(\sum_{k=1}^n\frac{∂E}{∂u_k}·\frac{∂u_k}{∂y_j})·\frac{∂y_j}{∂u_j} \\ = ( \sum_{k=1}^n δ_k· \frac{∂u_k}{∂y_j}) · \frac{∂y_j}{∂u_j} \\ = (\sum_{k=1}^n δ_k ·\frac{∂( y_1w_{1k} + y_2 w_{2k}+...+y_n w_{nk}+b_k)}{∂y_j}) · \frac{∂y_j}{∂u_j} \\ =( \sum_{k=1}^n δ_k · w_{jk}) · \frac{∂y_j}{∂u_j}$

注意：将求和公式的下标记为k是为了直接与 k 层相关联，使表达式更清晰。

至此，求得
$\frac{∂E}{∂w_{ij}} = δ_j·y_i = ( (\sum_{k=1}^n δ_k · w_{jk} )· \frac{∂y_j}{∂u_j}) · y_i$

偏置

$\frac{∂E}{∂b_j} = \frac{∂E}{∂u_j}·\frac{∂u_j}{∂b_j} = δ_j · \frac{∂(y_1w_{1j}+y_2w_{2j}+...+y_lw_{lj}+b_j)}{∂b_j}=δ_j ·1 = δ_j \\ = ( \sum_{k=1}^n δ_k · w_{jk}) · \frac{∂y_j}{∂u_j}$