反向传播算法的公式推导

最新推荐文章于 2024-07-02 20:59:51 发布

HappyRocking

最新推荐文章于 2024-07-02 20:59:51 发布

阅读量1.9k

点赞数 1

分类专栏： Machine Learning 文章标签：反向传播 bp 推导

本文链接：https://blog.csdn.net/HappyRocking/article/details/80435544

版权

Machine Learning 专栏收录该内容

17 篇文章 3 订阅

订阅专栏

概念

反向传播（Back Propagation, BP）算法是使用梯度下降法相关的算法来优化一个神经网络时计算每一层梯度的方法，主要使用了多元函数的链式法则：

已知多元函数 $u=g(y_1,y_2,...,y_m)$ ，且 $y_i=f_i(x)$ ，所有函数都可微，则

$\partial u \partial x = \sum i = 1 m \partial u \partial y i \partial y i \partial x$ $\frac{\partial u}{\partial x}=\sum_{i=1}^{m}\frac{\partial u}{\partial y_i}\frac{\partial y_i}{\partial x}$

公式推导

1、模型

不失一般性，我们考虑以下4层结构的神经网络（全连接）：
这里写图片描述

2、符号说明

符号	含义
$n_l$	网络层数
$y_j$	输出层第 $j$ 类标签
$S_l$	第 $l$ 层神经元个数（不包括偏置）
$g(x)$	激活函数
$w_{ij}^{(l)}$	第 $l$ 层第 $j$ 个单元与第 $l+1$ 层第 $i$ 个单元之间的链接参数
$b_i^{(l)}$	第 $l$ 层的偏置与第 $l+1$ 层第 $i$ 个单元之间的链接参数
$z_i^{(l)}$	第 $l$ 层第 $i$ 个单元的输入（加权和，包括偏置）
$a_i^{(l)}$	第 $l$ 层第 $i$ 个单元的输出（激活函数的值）
$\delta_i^{(l)}$	第 $l$ 层第 $i$ 个单元的输入的偏导（或称为灵敏度、残差）
$J(\theta)$	代价函数

3、符号定义

z (l) i a (l) i J (θ) δ (l) i = b (l - 1) i + \sum j = 1 S l - 1 w (l - 1) i j a (l - 1) j = g (z (l) i) = 1 2 \sum j = 1 S l (y j - a (l) j) 2 = \partial J ( θ ) \partial z ( l ) i

$\begin{align*} z_i^{(l)}&=b_i^{(l-1)}+\sum_{j=1}^{S_{l-1}}w_{ij}^{(l-1)}a_j^{(l-1)} \\ a_i^{(l)}&=g(z_i^{(l)}) \\ J(\theta)&=\frac{1}{2}\sum_{j=1}^{S_l}(y_j-a_j^{(l)})^2 \\ \delta_i^{(l)}&=\frac{\partial J(\theta)}{\partial z_i^{(l)}} \end{align*}$

4、推导过程

δ (n l) i δ (l) i \partial J ( θ ) \partial w ( l ) i j \partial J ( θ ) \partial b ( l ) i = \partial J ( θ ) \partial z ( n l ) i = 1 2 \partial \partial z ( n l ) i \sum j = 1 S n l (y j - a (n l) j) 2 = 1 2 \partial \partial z ( n l ) i \sum j = 1 S n l (y j - g (z (n l) j)) 2 = 1 2 \partial \partial z ( n l ) i (y j - g (z (n l) i)) 2 = - (y i - a (n l) i) g' (z (n l) i) = \partial J ( θ ) \partial z ( l ) i = \sum j = 1 S l + 1 \partial J ( θ ) \partial z ( l + 1 ) j \partial z ( l + 1 ) j \partial z ( l ) i = \sum j = 1 S l + 1 δ (l + 1) j \partial z ( l + 1 ) j \partial z ( l ) i = \sum j = 1 S l + 1 δ (l + 1) j \partial \partial z ( l ) i (b (l) j + \sum k = 1 S l w (l) j k a (l) k) = \sum j = 1 S l + 1 δ (l + 1) j \partial \partial z ( l ) i (b (l) j + \sum k = 1 S l w (l) j k g (z (l) k)) = \sum j = 1 S l + 1 δ (l + 1) j \partial \partial z ( l ) i (w (l) j i g (z (l) i)) = \sum j = 1 S l + 1 δ (l + 1) j w (l) j i g' (z (l) i) = g' (z (l) i) \sum j = 1 S l + 1 δ (l + 1) j w (l) j i = \partial J ( θ ) \partial z ( l + 1 ) i \partial z ( l + 1 ) i \partial w ( l ) i j = δ (l + 1) i \partial z ( l + 1 ) i \partial w ( l ) i j = δ (l + 1) i \partial \partial w ( l ) i j (b (l) i + \sum k = 1 S l w (l) i k a (l) k) = δ (l + 1) i a (l) j = δ (l + 1) i \partial \partial b ( l ) i (b (l) i + \sum k = 1 S l w (l) i k a (l) k) = δ (l + 1) i

$\begin{align*} \delta_i^{(n_l)}&=\frac{\partial J(\theta)}{\partial z_i^{(n_l)}}\\ &=\frac{1}{2}\frac{\partial}{\partial z_i^{(n_l)}}\sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\ &=\frac{1}{2}\frac{\partial}{\partial z_i^{(n_l)}}\sum_{j=1}^{S_{n_l}}(y_j-g(z_j^{(n_l)}))^2 \\ &=\frac{1}{2}\frac{\partial}{\partial z_i^{(n_l)}}(y_j-g(z_i^{(n_l)}))^2 \\ &=-(y_i-a_i^{(n_l)})g'(z_i^{(n_l)})\\ \delta_i^{(l)}&=\frac{\partial J(\theta)}{\partial z_i^{(l)}}\\ &=\sum_{j=1}^{S_{l+1}}\frac{\partial J(\theta)}{\partial z_j^{(l+1)}}\frac{\partial z_j^{(l+1)}}{\partial z_i^{(l)}}\\ &=\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}\frac{\partial z_j^{(l+1)}}{\partial z_i^{(l)}}\\ &=\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}\frac{\partial}{\partial z_i^{(l)}}(b_j^{(l)}+\sum_{k=1}^{S_l}w_{jk}^{(l)}a_k^{(l)}) \\ &=\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}\frac{\partial}{\partial z_i^{(l)}}(b_j^{(l)}+\sum_{k=1}^{S_l}w_{jk}^{(l)}g(z_k^{(l)})) \\ &=\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}\frac{\partial}{\partial z_i^{(l)}}(w_{ji}^{(l)}g(z_i^{(l)})) \\ &=\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}w_{ji}^{(l)}g'(z_i^{(l)}) \\ &=g'(z_i^{(l)})\sum_{j=1}^{S_{l+1}}\delta_j^{(l+1)}w_{ji}^{(l)} \\ \frac{\partial J(\theta)}{\partial w_{ij}^{(l)}}&=\frac{\partial J(\theta)}{\partial z_i^{(l+1)}}\frac{\partial z_i^{(l+1)}}{\partial w_{ij}^{(l)}}\\ &=\delta _i^{(l+1)}\frac{\partial z_i^{(l+1)}}{\partial w_{ij}^{(l)}}\\ &=\delta _i^{(l+1)}\frac{\partial}{\partial w_{ij}^{(l)}}(b_i^{(l)}+\sum_{k=1}^{S_l}w_{ik}^{(l)}a_k^{(l)}) \\ &=\delta _i^{(l+1)}a_j^{(l)}\\ \frac{\partial J(\theta)}{\partial b_i^{(l)}}&=\delta _i^{(l+1)}\frac{\partial}{\partial b_i^{(l)}}(b_i^{(l)}+\sum_{k=1}^{S_l}w_{ik}^{(l)}a_k^{(l)}) \\ &=\delta _i^{(l+1)} \end{align*}$

向量形式的公式

δ (l) \partial J ( θ ) \partial W ( l ) \partial J ( θ ) \partial b ( l ) = (W (l)) T δ (l + 1) \circ g' (z (l)) = δ (l + 1) (a (l)) T = δ (l + 1)

$\begin{align*} \boldsymbol{\delta}^{(l)}&=(\boldsymbol{W}^{(l)})^T\boldsymbol{\delta}^{(l+1)}\circ g'(\boldsymbol{z}^{(l)})\\ \frac{\partial J(\theta)}{\partial \boldsymbol{W}^{(l)}}&=\boldsymbol{\delta}^{(l+1)}(\boldsymbol{a}^{(l)})^T\\ \frac{\partial J(\theta)}{\partial \boldsymbol{b}^{(l)}}&=\boldsymbol{\delta}^{(l+1)} \end{align*}$
其中，

∘ ∘ $\circ$ 表示每个元素相乘，粗体的小写符号表示列向量，粗体的大写符号表示矩阵。