反向传播的计算——手撕BP神经网络

nmhjklnm

已于 2023-02-25 22:04:44 修改

阅读量403

点赞数 3

文章标签：神经网络机器学习线性代数

于 2023-02-23 22:20:25 首次发布

本文链接：https://blog.csdn.net/sadwqwe/article/details/129191183

版权

个人主页:https://yang1he.gitee.io
干货会越来越多的，欢迎来玩

反向传播的计算——手撕BP神经网络(1)

对基本原理，手撕是最合适的态度，反向传播的概念不难理解，但计算方法总是容易遗忘，本文举一个两层的神经网络，来计算他的反向传播过程。

问题描述

在这里插入图片描述

计算方法

具体分为四步

计算正向计算预测值
计算误差
通过链式求导法则求出梯度
误差的反向传播

计算正向计算预测值

$Z_h=W_hX+b_h=-0.2*1+0.1=-0.1\\ Y_h=\frac{1}{1+e^{(-Z_h)}}=\frac{1}{1+e^{(-0.1)}}=0.57\\ Z_o=W_oX+b_o=-0.3*0.57+0.2=-0.029\\ Y_o=\frac{1}{1+e^{(-Z_o)}}=\frac{1}{1+e^{(-0.029)}}=0.59$

计算误差

此处采用最常见的误差
$Loss=\frac{1}{2}(y-y_o)^2=0.02205$

通过链式求导法则求出梯度

以 $w_o$ 为例:
$\frac{\partial L o s s}{\partial w_o}=\frac{\partial L o s s}{\partial y_o} \cdot \frac{\partial y_o}{\partial z_o} \cdot \frac{\partial z_o}{\partial w_o}=-0.21 \times 0.2419 \times 0.57=-0.02895543$

公式	求导结果
$\text{Loss}=\frac{1}{2}\left(y-y_o\right)^2$	$\frac{\partial \text{Loss}}{\partial y_o}=-2 \times \frac{1}{2} \times\left(y-y_o\right)=-(0.8-0.59)=-0.21$
$y_o=\frac{1}{1+e^{-z_o}}$	$\frac{\partial y_o}{\partial z_o}=y_o\left(1-y_o\right)=0.59 \times(1-0.59)=0.2419$
$z_o=w_o y_h+b_o$	$\frac{\partial z_o}{\partial w_o}=y_h=0.57$

接下来以 $w_h$ 为例：
$\frac{\partial \text { Loss }}{\partial w_h}=\frac{\partial \text { Loss }}{\partial y_o} \cdot \frac{\partial y_o}{\partial z_o} \cdot \frac{\partial z_o}{\partial y_h} \cdot \frac{\partial y_h}{\partial z_h} \cdot \frac{\partial z_h}{\partial w_h}=-0.21 \times 0.2419 \times 0.3 \times 0.2451 \times 1=-0.0037352$
将上述公式展开，详细分为5部分如下表

公式	求导结果
$\text{Loss}=\frac{1}{2}\left(y-y_o\right)^2$	$\frac{\partial \text{Loss}}{\partial y_o}=-2 \times \frac{1}{2} \times\left(y-y_o\right)=-(0.8-0.59)=-0.21$
$y_o=\frac{1}{1+e^{-z_o}}$	$\frac{\partial y_o}{\partial z_o}=y_o\left(1-y_o\right)=0.59 \times(1-0.59)=0.2419$
$z_h=w_h x+b_h$	$\frac{\partial z_o}{\partial y_h}=w_o=0.3$
$y_h=\frac{1}{1+e^{-z_h}}$	$\frac{\partial y_h}{\partial z_h}=y_h\left(1-y_h\right)=0.57 \times(1-0.57)=0.2451$
$z_h=w_h x+b_h$	$\frac{\partial z_h}{\partial w_h}=x=1$

其实到这里聪明的你应该就懂了，但为了强化记忆，再举一个 $b_h$ 的例子

$\frac{\partial \text { Loss }}{\partial b_h}=\frac{\partial \text { Loss }}{\partial y_o} \cdot \frac{\partial y_o}{\partial z_o} \cdot \frac{\partial z_o}{\partial y_h} \cdot \frac{\partial y_h}{\partial z_h} \cdot \frac{\partial z_h}{\partial b_h}=-0.21 \times 0.2419 \times 0.3 \times 0.2451 \times 1=-0.00373525 \\$

公式	求导结果
$\text{Loss}=\frac{1}{2}\left(y-y_o\right)^2$	$\frac{\partial \text{Loss}}{\partial y_o}=-2 \times \frac{1}{2} \times\left(y-y_o\right)=-(0.8-0.59)=-0.21$
$y_o=\frac{1}{1+e^{-z_o}}$	$\frac{\partial y_o}{\partial z_o}=y_o\left(1-y_o\right)=0.59 \times(1-0.59)=0.2419$
$z_o=w_o y_h+b_o$	$\frac{\partial z_o}{\partial y_h}=w_o=0.3$
$y_h=\frac{1}{1+e^{-z_h}}$	$\frac{\partial y_h}{\partial z_h}=y_h\left(1-y_h\right)=0.57 \times(1-0.57)=0.2451$
$z_h=w_h x+b_h$	$\frac{\partial z_h}{\partial b_h}=1$

现在我们计算出了各参数的梯度，接下来就是更新参数了。

误差的反向传播

通过对原值减去一个超参数学习率乘以计算的梯度，对原参数进行优化
$W_h^{(k+1)}=w_h^{(k)}-\eta\frac{\partial Loss}{\partial w_h}\\ W_o^{(k+1)}=w_o^{(k)}-\eta\frac{\partial Loss}{\partial w_o}\\ b_h^{(k+1)}=b_h^{(k)}-\eta\frac{\partial Loss}{\partial b_h}\\ b_o^{(k+1)}=b_o^{(k)}-\eta\frac{\partial Loss}{\partial b_o}\\$

$\begin{gathered} w_h^{(1)}=w_h^{(0)}-\eta \frac{\partial \text { Loss }}{\partial w_h}=0.201867625 \\ b_h^{(1)}=b_h^{(0)}-\eta \frac{\partial \text { Loss }}{\partial b_h}=0.101867625 \end{gathered} \begin{gathered} \quad w_o^{(1)}=w_o^{(0)}-\eta \frac{\partial \text { Loss }}{\partial w_o}=0.314477715 \\ b_o^{(1)}=b_o^{(0)}-\eta \frac{\partial \text { Loss }}{\partial b_o}=0.2253995 \end{gathered}$