深度学习：优化算法之前向传播、链式法则和BP反向传播

最新推荐文章于 2024-03-22 20:14:33 发布

示木007

最新推荐文章于 2024-03-22 20:14:33 发布

阅读量541

点赞数

分类专栏：深度学习文章标签：人工智能深度学习神经网络 tensorflow

本文链接：https://blog.csdn.net/m0_58475958/article/details/119189375

版权

深度学习专栏收录该内容

11 篇文章 4 订阅

订阅专栏

本文深入探讨了神经网络中的前向传播和反向传播过程。前向传播将输入数据逐层传递，计算网络的输出，并通过损失函数衡量预测与实际值的差距。反向传播利用链式法则计算损失函数对每个参数的梯度，进而更新权重以减小误差。以一个简单的神经网络为例，展示了从输入到输出的计算过程，以及如何使用链式法则求解导数，最后通过BP算法更新权重。

摘要由CSDN通过智能技术生成

1.前向传播

1.1 概念

前向传播是指数据输入神经网络中，逐层向前传输，一直运算到输出层为止。
在这里插入图片描述
经过前向传播，得到的最终结果与真实值之间的误差，这个误差就是损失函数。

1.2 前向传播运算

以一个简单的神经网络为例，激活函数是：sigmoid
在这里插入图片描述
$net_{h1}=w_1i_1+w_2i_2+b=0.15\times0.05+0.2\times0.1+0.35=0.3775$

$net_{h2}=w_3i_1+w_4i_2+b=0.25\times0.05+0.3\times0.1+0.35=0.3925$

$out_{h1}=\frac{1}{1+e^{-x}}=\frac{1}{1+e^{-net_{h1}}}=\frac{1}{1+e^{-0.3775}}=0.5933$

$out_{h2}=\frac{1}{1+e^{-x}}=\frac{1}{1+e^{-net_{h2}}}=\frac{1}{1+e^{-0.3925}}=0.5969$

$net_{o1}=w_5out_{h_1}+w_6out_{h_2}+b=0.4\times0.5933+0.45\times0.5969+0.6=1.1059$

$net_{o2}=w_7out_{h_1}+w_8out_{h_2}+b=0.5\times0.5933+0.55\times0.5969+0.6=1.2249$

$out_{o1}=\frac{1}{1+e^{-x}}=\frac{1}{1+e^{-net_{o1}}}=\frac{1}{1+e^{-1.1059}}=0.7514$

$out_{o2}=\frac{1}{1+e^{-x}}=\frac{1}{1+e^{-net_{o2}}}=\frac{1}{1+e^{-1.2249}}=0.7729$

$E_{total}=\sum\frac{1}{2}(target-output)^2$

$E_{total}=E_{o1}+E_{o2}=0.2748+0.0236=0.2984$

2.链式法则

对于复杂的复合函数，我们将其拆分为一系列的加减乘除或指数、对数、三角函数等差初等函数，通过链式法则完成复合函数的求导。我们这里以神经网络中常见的复合函数为例说明这个过程，令复合函数 $f (x; w, b)$ 为：
$f(x;w,b)=\frac{1}{exp\left(-(wx+b)\right)+1}$
其中 $x$ 是输入数据， $w$ 是权重， $b$ 是偏置。我们将复合函数分解为：

函数	导数
$h_1=x\cdot w$	$\frac{\partial h_1}{\partial w}=x,\frac{\partial h_1}{\partial x}=w$
$h_2=h_1 +b$	$\frac{\partial h_2}{\partial h_1}=1,\frac{\partial h_2}{\partial b}=1$
$h_3=-h_2$	$\frac{\partial h_3}{\partial h_2}=-1$
$h_4=exp(h_3)$	$\frac{\partial h_4}{\partial h_3}=exp(h_3)$
$h_5=h_4+1$	$\frac{\partial h_5}{\partial h_4}=1$
$h_6=\frac{1}{h_5}$	$\frac{\partial h_6}{\partial h_5}=\frac {-1}{h_5^2}$

用图形化表示：
在这里插入图片描述
整个复合函数 $f (x; w, b)$ 关于参数 $w$ 和 $b$ 的导数可以通过 $f (x; w, b)$ 与参数 $w$ 和 $b$ 之间路径上所有的导数连乘得到：
$\frac{\partial f(x;w,b)}{\partial w}=\frac{\partial f(x;w,b)}{\partial h_6}\cdot \frac{\partial h_6}{\partial h_5}\cdot \frac{\partial h_5}{\partial h_4}\cdot \frac{\partial h_4}{\partial h_3}\cdot \frac{\partial h_3}{\partial h_2}\cdot \frac{\partial h_2}{\partial h_1}\cdot \frac{\partial h_1}{\partial w}$
$\frac{\partial f(x;w,b)}{\partial b}=\frac{\partial f(x;w,b)}{\partial h_6}\cdot \frac{\partial h_6}{\partial h_5}\cdot \frac{\partial h_5}{\partial h_4}\cdot \frac{\partial h_4}{\partial h_3}\cdot \frac{\partial h_3}{\partial h_2}\cdot \frac{\partial h_2}{\partial b}$
以 $w$ 为例，当 $x$ =1， $w$ =0， $b$ =0时，可以得到：

$h_1=x\cdot w$ =0
$h_2=h_1+b=0$
$h_3=-h_2=0$
$h_4=exp(h_3)=1$
$h_5=h_4+1=2$
$h_6=\frac{1}{h_5}=\frac{1}{2}$
$f(x;w,b)=h_6=\frac{1}{2}$

$\begin{aligned} \frac{\partial f(x;w,b)}{\partial w}|_{x=1,w=0,b=0} & =\frac{\partial f(x;w,b)}{\partial h_6}\cdot \frac{\partial h_6}{\partial h_5}\cdot \frac{\partial h_5}{\partial h_4}\cdot \frac{\partial h_4}{\partial h_3}\cdot \frac{\partial h_3}{\partial h_2}\cdot \frac{\partial h_2}{\partial h_1}\cdot \frac{\partial h_1}{\partial w}\\ & =1\times(-0.25)\times1\times1\times(-1)\times1\times{1} \\ &=0.25 \end{aligned}$
$\begin{aligned} \frac{\partial f(x;w,b)}{\partial b}|_{x=1,w=0,b=0} & =\frac{\partial f(x;w,b)}{\partial h_6}\cdot \frac{\partial h_6}{\partial h_5}\cdot \frac{\partial h_5}{\partial h_4}\cdot \frac{\partial h_4}{\partial h_3}\cdot \frac{\partial h_3}{\partial h_2}\cdot \frac{\partial h_2}{\partial b}\\ & =1\times(-0.25)\times1\times1\times(-1)\times{1}\\ &=0.25 \end{aligned}$

3.BP反向传播算法

反向传播算法是利用链式法则对神经网络中的各个节点的权重进行更新。

输出层权重：
$w_{jk}=w_{jk}-\eta \frac{\partial E}{\partial w_{jk}}$
隐藏层权重：
$w_{ij}=w_{ij}-\eta \frac{\partial E}{\partial w_{ij}}$
偏置更新：
$b_{j}=b_{j}-\eta \frac{\partial E}{\partial b_{j}}$
我们仍旧用前向传播的例子，先求最简单的误差 $E$ 对 $w_5$ 的导数。先要明确链式法则的求导过程，要求误差 $E$ 对 $w_5$ 的导数，需要先求误差 $E$ 对 $out_{o1}$ 的导数，再求 $out_{o1}$ 对 $net_{o1}$ 的导数，最后求 $net_{o1}$ 对 $w_5$ 的导数，经过链式法则，我们即求出了误差 $E$ 对 $w_5$ 的导数。如下图所示：

3.1 求解导数

$E_{total}=\frac{1}{2}(target_{o1}-out_{o1})^2+\frac{1}{2}(target_{o2}-out_{o2})^2$

$\frac{\partial E_{total}}{\partial out_{o1}}=2\times\frac{1}{2}\times(target_{o1}-out_{o1})^{2-1}\times(-1)+0=-(target_{o1}-out_{o1})=-(0.01-0.7514)=0.7414$

$out_{o1}=\frac{1}{1+e^{-net_{o1}}}$

$\frac{\partial out_{o1}}{\partial net_{o1}}=out_{o1}(1-out_{o1})=0.7514\times(1-0.7514)=0.1868$

$net_{o1}=w_5out_{h_1}+w_6out_{h_2}+b$

$\frac{\partial net_{o1}}{\partial w_5}=out_{h_1}+0+0=0.5933$

因此：

$\frac{\partial E_{total}}{\partial w_5} =\frac{\partial E_{total}}{\partial out_{o1}}\cdot\frac{\partial out_{o1}}{\partial net_{o1}}\cdot\frac{\partial net_{o1}}{\partial w_5}=0.7414\times0.1868\times{0.5933} =0.0822$

3.2 参数更新

由上述求导过程可知：
$\begin{aligned} \frac{\partial E_{total}}{\partial out_{o1}}&=-(target_{o1}-out_{o1})\cdot out_{o1}(1-out_{o1})\cdot out_{h_1}\\ &=0.0822 \end{aligned}$
$\begin{aligned} \frac{\partial E_{total}}{\partial out_{o2}}&=-(target_{o2}-out_{o2})\cdot out_{o2}(1-out_{o2})\cdot out_{h_2}\\ &=-0.0227 \end{aligned}$
$w_5^+=w_5-\eta\cdot\frac{\partial E_{total}}{\partial out_{o1}}=0.4-0.5\times0.0822=0.3589$

$w_6^+=w_6-\eta\cdot\frac{\partial E_{total}}{\partial out_{o1}}=0.45-0.5\times0.0822=0.4089$

$w_7^+=w_7-\eta\cdot\frac{\partial E_{total}}{\partial out_{o2}}=0.50-0.5\times(-0.0227)=0.5113$

$w_8^+=w_7-\eta\cdot\frac{\partial E_{total}}{\partial out_{o2}}=0.55-0.5\times(-0.0227)=0.5614$

误差 $E$ 对 $w_1$ 的导数，求导路径不止一条，计算过程下图所示：
在这里插入图片描述

$\frac{\partial E_{total}}{\partial w_1}=\frac{\partial E_{total}}{out_{h_1}}\cdot\frac{\partial out_{h_1}}{\partial net_{h_1}}\cdot\frac{\partial net_{h_1}}{w_1}$

$\frac{\partial E_{total}}{out_{h_1}}=\frac{\partial E_{o1}}{\partial out_{h_1}}+\frac{\partial E_{02}}{\partial out_{h_1}}$

$\frac{\partial E_{o1}}{\partial out_{h_1}}=\frac{\partial E_{o1}}{\partial out_{o1}}\cdot\frac{\partial out_{o1}}{\partial net_{o1}}\cdot\frac{\partial net_{o1}}{\partial out_{h_1}}$

$\frac{\partial E_{o2}}{\partial out_{h_1}}=\frac{\partial E_{o2}}{\partial out_{o2}}\cdot\frac{\partial out_{o2}}{\partial net_{o2}}\cdot\frac{\partial net_{o2}}{\partial out_{h_1}}$

$\frac{\partial E_{total}}{\partial w_1}=\left(\frac{\partial E_{o1}}{\partial out_{o1}}\cdot\frac{\partial out_{o1}}{\partial net_{o1}}\cdot\frac{\partial net_{o1}}{\partial out_{h_1}}+\frac{\partial E_{o2}}{\partial out_{o2}}\cdot\frac{\partial out_{o2}}{\partial net_{o2}}\cdot\frac{\partial net_{o2}}{\partial out_{h_1}}\right)\cdot\frac{\partial out_{h_1}}{\partial net_{h_1}}\cdot\frac{\partial net_{h_1}}{w_1}$

可得：
$w_1^+=w_1-\eta\cdot\frac{\partial E_{total}}{\partial w_1}=0.15-0.5\times0.000438568=0.149780716$

$w_2^+=0.19956143$

$w_3^+=0.24975114$

$w_4^+=0.29950229$

通过以上步骤，更新了所有的权重，最初的前向传播输入是0.05和0.1，网络上的误差是0.298371109。经过第一轮传播之后，总误差下降到0.291027924。重复10000次之后，误差下降到0.000035085。两个输出神经元输出为0.015912196（相对于目标0.01）和0.984065734（相对于目标0.99）