Machine Learning —— Backpropagation

最新推荐文章于 2021-06-01 16:01:48 发布

Navajo_c

最新推荐文章于 2021-06-01 16:01:48 发布

阅读量152

点赞数

分类专栏： Machine Learning(Hung-yi Lee) 文章标签：深度学习机器学习 python 人工智能

本文链接：https://blog.csdn.net/David_B/article/details/116670907

版权

Machine Learning(Hung-yi Lee) 专栏收录该内容

18 篇文章 1 订阅

订阅专栏

Machine Learning —— Backpropagation

Gradient Descent

gradient descent的使用方法，跟前面讲到的linear Regression或者是Logistic Regression是一模一样的，唯一的区别就在于当它用在neural network的时候，neural network的parameter $\theta^*=w_1,w_2,...,b_1,b_2,..$ ，可能会有将近million个参数，如何有效地把这个近百万维的vector给计算出来，这就是Backpropagation要做的事情

Backpropagation并不是一个和gradient descent不同的training的方法，它就是gradient descent，它只是一个比较有效率的算法，让你在计算这个gradient的vector的时候更有效率

Chain Rule（链式法则）

对整个neural network，我们定义了一个loss function： $L(\theta)=\sum\limits_{n=1}^Nl^n(\theta)$
在这里插入图片描述
用 $L(\theta)$ 对某一个参数w做偏微分，表达式如下：

$\frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial l^n(\theta)}{\partial w}$

我们先考虑某一个neuron，先拿出上图中被红色三角形圈住的neuron，假设只有两个input $x_1,x_2$ ，通过这个neural，可以得到 $z=b+w_1x_1+w_2x_2$ ，然后经过activation function从这个neuron中output出来，作为后续neuron的input，再经过了非常非常多的事情以后，会得到最终的output $y_1,y_2$

按照chain rule，可以把拆分成两项 $\frac{\partial l(\theta)}{\partial w}$ 拆分成两项， $\frac{\partial l(\theta)}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial l}{\partial z}$

计算前面这一项 $\frac{\partial z}{\partial w}$ 的过程我们称之为Forward pass；计算后一项 $\frac{\partial l}{\partial z}$ 的过程称之为Backward pass
在这里插入图片描述

Forward pass

求 $\frac{\partial z}{\partial w}$ 就是看w前连接的input是什么，微分后的 $\frac{\partial z}{\partial w}$ 就是什么，因此只要计算出neural network里面每一个neuron的output就可以知道任意的z对w的偏微分
在这里插入图片描述

Backward pass

计算 $\frac{\partial l}{\partial z}$ 这项会比较复杂

公式推导

在这里插入图片描述

z通过activation function得到a，这个neural的output是 $a=\sigma(z)$ ，接下来a会乘上某一个weight $w_3$ ，再加上其它一堆value得到 $z^{'}$ ， $z^{'}$ 是下一个neural activation function的input，然后a又会乘上某一个weight $w_4$ ，再加上其它一堆value得到 $z^{''}$ ，我们在考虑下一步：

$\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial l}{\partial a}$

这里的 $\frac{\partial a}{\partial z}$ 实际上是activation function的微分（在这里就是sigmoid function的微分），接下来就是计算 $\frac{\partial l}{\partial a}$ ，根据chain rule可以得到：

$\frac{\partial l}{\partial a}=\frac{\partial z'}{\partial a}\frac{\partial l}{\partial z'}+\frac{\partial z''}{\partial a}\frac{\partial l}{\partial z''}$

上式中 $\frac{\partial z'}{\partial a}=w_3,\frac{\partial z'‘’}{\partial a}=w_4$ ，但是如何计算 $\frac{\partial l}{\partial z'}$ 和 $\frac{\partial l}{\partial z''}$ ？

首先我们假设已通过某种方法把 $\frac{\partial l}{\partial z'}$ 和 $\frac{\partial l}{\partial z''}$ 计算出来了，然后回过头去就可以把 $\frac{\partial l}{\partial z}$ 给轻易计算出：

$\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial l}{\partial a}=\sigma'(z)[w_3\frac{\partial l}{\partial z'}+w_4\frac{\partial l}{\partial z''}]$

另一种观点

我们可以从另外一个观点来看待这个式子

现在有另外一个neuron，它不在我们原来的network里面，在下图中它被画成三角形，这个neuron的input就是 $\frac{\partial l}{\partial z'}$ 和 $\frac{\partial l}{\partial z''}$ ，那input $\frac{\partial l}{\partial z'}$ 乘上 $w_3$ ， $\frac{\partial l}{\partial z''}$ 乘上 $w_4$ ，两者相加再乘上activation function的微分 $\sigma'(z)$ ，就可以得到output $\frac{\partial l}{\partial z}$
在这里插入图片描述

两种情况

现在我们需要解决的问题是，怎么计算 $\frac{\partial l}{\partial z'}$ 和 $\frac{\partial l}{\partial z''}$ ，假设有两个不同的case：

case1：Output Layer

假设蓝色的这个neuron已经是hidden layer的最后一层了，也就是说连接在 $\partial z'$ 和 $\partial z''$ 后的两个红色的neuron已经是output layer，它的output就已经是整个network的output了，这个时候计算就比较简单：

$\frac{\partial l}{\partial z'}=\frac{\partial y_1}{\partial z'}\frac{\partial l}{\partial y_1}$

$\frac{\partial y_1}{\partial z'}$ 就是output layer的activation function（softmax）对 $z^{'}$ 的偏微分
$\frac{\partial l}{\partial y_1}$ 是loss对 $y_1$ 的偏微分，取决于loss function怎么定义，也就是output和target之间是怎么evaluate的，可以用cross entropy，用不同的定义得到的值不一样

这时就可以把 $l$ 对 $w_1$ 和 $w_2$ 的偏微分计算出来了
在这里插入图片描述

case2：Not Output Layer

假设现在红色的neural并不是整个network的output，那么 $z^{'}$ 经过红色neuron的activation function得到 $a^{'}$ ，然后output $a^{'}$ 和 $w_5、w_6$ 相乘并加上一堆其它东西分别得到 $z_a$ 和 $z_b$ ，如下图所示
在这里插入图片描述
根据之前的推导证明类比，如果知道 $\frac{\partial l}{\partial z_a}$ 和 $\frac{\partial l}{\partial z_b}$ ，我们可以计算 $\frac{\partial l}{\partial z'}$ 即：

$\frac{\partial l}{\partial z'}=\sigma'(z')[w_5\frac{\partial l}{\partial z_a}+w_6\frac{\partial l}{\partial z_b}]$
在这里插入图片描述
知道 $z^{'}$ 和 $z^{''}$ 就可以知道 $z$ ，知道 $z_a$ 和 $z_b$ 就可以知道 $z^{'}$ …以此类推，直到找到output layer

当我们从output layer的 $\frac{\partial l}{\partial z}$ 开始计算，可以发现它的计算量和network的Feedforward path一样

假设现在有6个neural，每一个neuron的activation function的input分别是 $z_1、z_2、z_3、z_4、z_5、z_6$ ，如果我们反过来先计算 $z_5、z_6$ 的偏微分的话 $\frac{\partial l}{\partial z_5}、\frac{\partial l}{\partial z_6}$ ，然后就可以计算 $\frac{\partial l}{\partial z_3}、\frac{\partial l}{\partial z_4}$ ，最后可以得到 $\frac{\partial l}{\partial z_1}、\frac{\partial l}{\partial z_2}$ ，这个过程就叫做Backward pass
在这里插入图片描述

Summary

Forward pass：每一个neuron的activation function的output，就是它所连接的weight的 $\frac{\partial z}{\partial w}$
Backward pass：建立一个与原来方向相反的neural network，它的三角形neuron的output就是 $\frac{\partial l}{\partial z}$
把通过forward pass得到的 $\frac{\partial z}{\partial w}$ 和通过backforward pass得到的 $\frac{\partial l}{\partial z}$ 相乘即可得到 $\frac{\partial l}{\partial w}$

$\frac{\partial l}{\partial w}=\frac{\partial l}{\partial z}|_{forward pass}\cdot\frac{\partial l}{\partial z}|_{backward pass}$

参考

https://sakura-gh.github.io/ML-notes/ML-notes-html/9_Backpropagation.html

Navajo_c

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning —— Backpropagation

Machine Learning —— BackpropagationGradient Descentgradient descent的使用方法，跟前面讲到的linear Regression或者是Logistic Regression是一模一样的，唯一的区别就在于当它用在neural network的时候，neural network的parameter θ∗=w1,w2,...,b1,b2,..\theta^*=w_1,w_2,...,b_1,b_2,..θ∗=w1,w2,...,b1,b2
复制链接

扫一扫

专栏目录