笔记：ML-LHY-7 Backpropagation

最新推荐文章于 2021-02-25 22:34:25 发布

snoopy_21

最新推荐文章于 2021-02-25 22:34:25 发布

阅读量200

点赞数 1

分类专栏：机器学习笔记李宏毅ML课程笔记

本文链接：https://blog.csdn.net/qq_29598161/article/details/107548883

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

这节课主要说了神经网络的一种求梯度方式：反向传播。原来只理解在链式求导上，而这节课阐述了反向传播实际也是在反向求一个神经网络
pdf 视频

梯度下降

不过是求线性回归、逻辑回归还是神经网络都是使用梯度下降方法:)
那么神经网络求梯度如下
网络参数：
$\theta=\left\{w_{1}, w_{2}, \cdots, b_{1}, b_{2}, \cdots\right\}$
梯度为：
$\begin{array}{l} \nabla \mathrm{L}(\theta) =\\ {\left[\begin{array}{c} \partial \mathrm{L}(\theta) / \partial w_{1} \\ \partial \mathrm{L}(\theta) / \partial w_{2} \\ \vdots \\ \partial \mathrm{L}(\theta) / \partial b_{1} \\ \partial \mathrm{L}(\theta) / \partial b_{2} \\ \vdots \end{array}\right]} \end{array}$

然后更新：
$\begin{array}{ll} \text { Compute } \nabla \mathrm{L}\left(\theta^{0}\right) & \theta^{1}=\theta^{0}-\eta \nabla \mathrm{L}\left(\theta^{0}\right) \\ \text { Compute } \nabla \mathrm{L}\left(\theta^{1}\right) & \theta^{2}=\theta^{1}-\eta \nabla \mathrm{L}\left(\theta^{1}\right) \end{array}$

但是这样做，参数太多了，因为是全连接，多层，很可能达到百万级参数，直接求太多参数了
但是有个有效的方法，反向传播(Backpropagation)。
个人认为和动态规划思想有点类似，共用底层的计算，稍后会介绍，实际上最底层的计算就是靠近输出层的梯度。

链式求导回顾

只有一条分支：
$\quad z=h(y)$

$\Delta x \rightarrow \Delta y \rightarrow \Delta z$

$\frac{d z}{d x}=\frac{d z}{d y} \frac{d y}{d x}$

多条分支：
$\quad y=h(s) \quad z=k(x, y)$

在这里插入图片描述
$\frac{d z}{d s}=\frac{\partial z}{\partial x} \frac{d x}{d s}+\frac{\partial z}{\partial y} \frac{d y}{d s}$

反向传播

具体要求什么？要求梯度，损失的定义是交叉熵C之和:

在这里插入图片描述
$L(\theta)=\sum_{n=1}^{N} C^{n}(\theta)$
对一个w求偏导：
$\frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^{N} \frac{\partial C^{n}(\theta)}{\partial w}$

之前已经说过直接对C求w的偏导参数太多，可以拆成以下2步：(Forward pass) X (Backward pass)
利用链式求导：
$\frac{\partial C}{\partial w}= \quad \frac{\partial z}{\partial w} \frac{\partial C}{\partial z}$
$\frac{\partial z}{\partial w}$ 就是Forward pass要求的

$\frac{\partial C}{\partial z}$ 就是Backward pass要求得

在这里插入图片描述

Forward pass

对所有参数计算 $\partial z / \partial w$

$\begin{array}{l} \partial z / \partial w_{1}= x_{1} \\ \partial z / \partial w_{2}= x_{2} \end{array}$

在这里插入图片描述
为什么叫Forward pass可以看到，计算方向是Forward

Backward pass

对每个激活函数的输入z求 $\partial C / \partial z$

在这里插入图片描述

$\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a}$
拆分：
$\frac{\partial a}{\partial z} = \sigma^{\prime}(z)$

在这里插入图片描述
$\frac{\partial C}{\partial a}=\frac{\partial z^{\prime}}{\partial a} \frac{\partial C}{\partial z^{\prime}}+\frac{\partial z^{\prime \prime}}{\partial a} \frac{\partial C}{\partial z^{\prime \prime}}$

所以：

$\frac{\partial C}{\partial z}=\sigma^{\prime}(z)\left[w_{3} \frac{\partial C}{\partial z^{\prime}}+w_{4} \frac{\partial C}{\partial z^{\prime \prime}}\right]$

这里回答了为什么可以把反向传播中Backward pass看做在求反向神经网络：

在这里插入图片描述

还剩最后一个问题就是 $\frac{\partial C}{\partial z^{\prime}}$ 、 $\frac{\partial C}{\partial z^{\prime \prime}}$ 不知道，但是如果 $z^{\prime}$ 、 $z^{\prime\prime}$ 的下一层就是输出层的话是可以直接计算的

$\frac{\partial C}{\partial z^{\prime}}=\frac{\partial y_{1}}{\partial z^{\prime}} \frac{\partial C}{\partial y_{1}} \quad \frac{\partial C}{\partial z^{\prime \prime}}=\frac{\partial y_{2}}{\partial z^{\prime \prime}} \frac{\partial C}{\partial y_{z}}$
同理，如果在中间呢？一样可以计算（实际上可以由下一层计算，就还是套用上面公式，只不过把下一层做输入，输出到这层作为这层的输入。。。递推公式啦）：
在这里插入图片描述
比如求 $\frac{\partial C}{\partial z^{\prime}}$ ：

这样一直往后推，直到输出层，此时就可以算出来来了，实际上没必要从中间推导，知道原理，从后玩前反向计算就很顺了：