深度学习简介及反向传播

晨哥是个好演员

已于 2022-11-19 18:47:05 修改

阅读量840

点赞数 2

分类专栏：机器学习文章标签：深度学习人工智能

于 2022-11-19 18:41:47 首次发布

本文链接：https://blog.csdn.net/gc348342215/article/details/127937168

版权

机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

Datawhale开源学习，机器学习课程，项目地址：https://github.com/datawhalechina/leeml-notes

之前学习机器学习的时候，总结了三步：

define a set of function
goodness of function
pick the best function

这三步所做的事情就是选择函数模型，优化函数模型，选出最好的拟合模型。在深度学习中，我们通过神经网络构建多层神经网络，输出结果由输入结合权重及偏差bias计算得出。神经网络使得我们可以构建出大量的函数。并不断优化拟合，输出最终结果。

深度学习归纳出三个步骤为：

神经网络（neural network）
模型评估（goodness of function）
选择最优函数（pick the best function）

与机器学习不同的地方就在于，第一处并非通过函数拟合，而是建立神经网络。接下来来说说这三步。

Step1：神经网络 neural network

神经网络中，由多个输入和输出连接而成，其内部的连接方式也有很多种，这样就会在神经网络中产生不同的结构。其内部也有很多逻辑回归函数，每个逻辑回归都有自己的权重和偏差，这些权重和偏差就是参数，会被不断的训练。

最常见的一种神经网络：全连接前馈神经网络，前馈（feedforward）也可以称为前向，从信号流向来理解就是输入信号进入网络后，信号流动是单向的，即信号从前一层流向后一层，一直到输出层，其中任意两层之间的连接并没有反馈（feedback），亦即信号没有从后一层又返回到前一层。如果一个神经网络里面的权重weight和偏差bias已知的话，它就可以表示一个函数function，它的input是一个向量，output也是个向量，这个向量里放的是样本点的特征，向量的维度就是特征的个数。

在这里插入图片描述
如果我们不知道参数，只定义出神经网络结构（神经元如何连接在一起），那实际上说明我们定义了一个函数集合（funciton set），我们给这个神经网络设置不同的参数，它就会变成不同的function。神经网络的好处在于，它可以构建的非常庞大，构建出来的function set包含了很多逻辑回归和线性回归所无法包含到的function。

下图中，每一排表示一个layer，每个layer里面的每一个球都代表一个神经元。因为layer和layer之间，所有的神经元都是两两连接，所以它叫Fully connected的network；因为现在传递的方向是从layer 1->2->3，由前往后传，所以它叫做Feedforward network

layer和layer之间神经元是「两两互相连接」的，layer 1的神经元「输出」会连接给layer 2的每一个神经元作为「输入」。
对整个神经网络来说，它需要一个input，这个input就是一个feature的vector，而对layer 1的每一个神经元来说，它的input就是input layer的每一个dimension。
最后那个layer L，由于它后面没有接其它东西了，所以它的output就是整个network的output。
这里每一个layer都是有名字的，input的地方，叫做input layer，输入层(严格来说input layer其实不是一个layer，它跟其他layer不一样，不是由神经元所组成的)；output的地方，叫做output layer，输出层；其余的地方，叫做hidden layer，隐藏层。
每一个神经元里面的sigmoid function，在Deep Learning中被称为activation function激活函数，事实上它不见得一定是sigmoid function，还可以是其他function（sigmoid function是从Logistic Regression迁移过来的，现在已经较少在Deep learning里使用了）
有很多层layers的neural network，被称为DNN(Deep Neural Network)。

在这里插入图片描述

神经网络中的矩阵运算

network的运作过程，我们通常会用Matrix Operation来表示，以下图为例，假设第一层hidden layers的两个neuron，它们的weight分别是 $w_1=1,w_2=-2,w_1'=-1,w_2'=1$ ，那就可以把它们排成一个matrix： $\begin{bmatrix}1 \ \ \ -2\\ -1 \ \ \ 1 \end{bmatrix}$ ，而我们的input又是一个2*1的vector： $\begin{bmatrix}1\\-1 \end{bmatrix}$ ，将w和x相乘，再加上bias的vector： $\begin{bmatrix}1\\0 \end{bmatrix}$ ，就可以得到这一层的vector z，再经过activation function得到这一层的output。

这里还是用Logistic Regression迁移过来的sigmoid function作为运算
$\sigma(\begin{bmatrix}1 \ \ \ -2\\ -1 \ \ \ 1 \end{bmatrix} \begin{bmatrix}1\\-1 \end{bmatrix}+\begin{bmatrix}1\\0 \end{bmatrix})=\sigma(\begin{bmatrix}4\\-2 \end{bmatrix})=\begin{bmatrix}0.98\\0.12 \end{bmatrix}$

在这里插入图片描述
这里我们把所有的变量都以matrix的形式表示出来，注意 $W^i$ 的matrix，每一行对应的是一个neuron的weight，行数就是neuron的个数，列数就是feature的数量。input x，bias b和output y都是一个列向量，行数是feature的个数，也是neuron的个数。neuron的本质就是把feature transform到另一个space。

在这里插入图片描述
把这件事情写成矩阵运算的好处是，可以用GPU加速，GPU对matrix的运算是比CPU要来的快的，所以我们写neural network的时候，习惯把它写成matrix operation，然后call GPU来加速它。

前面说大致把神经网络划分为输入层、隐藏层、输出层三部分。这个隐藏层其实就相当于是在做特征提取，隐藏层的特征提取就代替了手动进行特征转换的操作。经过特征提取得到的output输出 $x_1,x_2,...,x_k$ 就可悲当作一组新的feature特征。

输出层做的事情类似于一个Multi-class classifier，它是拿经过「特征提取」转换后的那一组比较好的feature（能够被很好地separate）进行分类的，由于我们把「输出层」看做是一个Multi-class classifier，所以我们会在最后一个layer加上softmax。

在这里插入图片描述

Step2：模型评估 goodness of function

在这里插入图片描述

模型评估用来反映网络的loss，机器学习中通过loss function损失函数去评判模型的好坏，在神经网络中，这里的loss function我们通常采用交叉熵（cross entropy）函数来作为定义，对 $y$ 和 $\hat{y}$ 的损失进行计算，接下来我们就是调整参数，让交叉熵越小越好。以下为交叉熵的定义：
$\ Entropy :C(y,\hat{y})=-\sum\limits_{i=1}^{10}\hat{y}_i lny_i$

在这里插入图片描述
对于损失，我们不单单要计算一笔数据的，而是要计算整体所有训练数据的损失，然后把所有的训练数据的损失都加起来，得到一个总体损失 $L=\sum\limits_{n=1}^NC^n$ 。接下来就是在function set里面找到一组函数能最小化这个总体损失 $L$ ，或者是找一组神经网络的参数 $\theta$ ，来最小化总体损失 $L$ 。

Step3：选择最优函数 pick the best function

接下来就去调整参数，让这个cross entropy越小越好，当然整个training data里面不会只有一笔data，你需要把所有data的cross entropy都sum起来，得到一个total loss $L=\sum\limits_{n=1}^NC^n$ ，得到loss function之后你要做的事情是找一组network的parameters： $\theta^*$ ，它可以minimize这个total loss，这组parameter 对应的function就是我们最终训练好的model。那怎么去找这个使total loss minimize的 $\theta^*$ 呢？使用的方法就是我们的老朋友Gradient Descent梯度下降。实际上在deep learning里面用gradient descent，跟在linear regression里面使用完全没有什么差别，只是function和parameter变得更复杂了而已，其他事情都是一模一样的。

现在你的 $\theta$ 里面是一大堆的weight、bias参数，先random找一个初始值，接下来去计算每一个参数对total loss的偏微分，把这些偏微分全部集合起来，就叫做gradient，有了这些偏微分以后，你就可以更新所有的参数，都减掉learning rate乘上偏微分的值，这个process反复进行下去，最终找到一组好的参数，就做完deep learning的training了。

在这里插入图片描述

具体流程： $\theta$ 是一组包含权重和偏差的参数集合，随机找一个初试值，接下来计算一下每个参数对应偏微分，得到的一个偏微分的集合 $\nabla{L}$ 就是梯度,有了这些偏微分，我们就可以不断更新梯度得到新的参数，这样不断反复进行，就能得到一组最好的参数使得损失函数的值最小。

所以，其实deep learning就是这样子了，就算是alpha go，也是用gradient descent train出来的，可能在你的想象中它有多么得高大上，实际上就是在用gradient descent这样朴素的方法。

反向传播

Backpropagation(反向传播)，就是告诉我们用gradient descent来train一个neural network的时候该怎么做，它只是求微分的一种方法，而不是一种新的算法。梯度下降法，跟linear Regression或者是Logistic Regression是一模一样的，唯一的区别就在于当它用在neural network的时候，network parameters $\theta=w_1,w_2,...,b_1,b_2,...$ 里面可能会有将近million个参数。

所以现在最大的困难是，如何有效地把这个近百万维的vector给计算出来，这就是Backpropagation要做的事情，所以Backpropagation并不是一个和gradient descent不同的training的方法，它就是gradient descent，它只是一个比较有效率的算法，让你在计算这个gradient的vector的时候更有效率。

在这里插入图片描述

给到 $\theta$ （weight and bias）
先选择一个初始的 $\theta^0$ 的损失函数（Loss Function）设一个参数的偏微分
计算完这个向量（vector）偏微分，然后就可以去更新的你 $\theta$
百万级别的参数（millions of parameters）
反向传播（Backpropagation）是一个比较有效率的算法，让你计算梯度（Gradient）的向量（Vector）时，可以有效率的计算出来

反向传播中没有什么高深的学问，在进行反向传播时，用到的是链式法则，你只需要搞清楚什么是链式法则即可，尝试考虑以下两种情况：
在这里插入图片描述
第一种情况， $x$ 作为输入，当 $x$ 在神经网络中不断被修改时， $x$ 作为输入会影响到输出 $y$ ，然后在下一层， $y$ 作为 $z$ 的输入，当 $y$ 发生改变时，又回影响到 $z$ 。如果要计算 $z$ 受 $x$ 的变换时，可以将 $\frac{dz}{dx}$ 拆分为 $\frac{dz}{dy}*\frac{dy}{dx}$ 。

第二种情况相较第一种情况而言，是一种多变量的形式，因此在求微分时，需要对每一个变量求偏导数去计算。以上就是链式法则求导数的操作。

对整个neural network，我们定义了一个loss function： $L(\theta)=\sum\limits_{n=1}^N C^n(\theta)$ ，它等于所有training data的loss之和。我们把training data里任意一个样本点 $x^n$ 代到neural network里面，它会output一个 $y^n$ ，我们把这个output跟样本点本身的label标注的target $\hat{y}^n$ 作cross entropy，这个交叉熵定义了output $y^n$ 和target $\hat{y}^n$ 之间的距离 $C^n(\theta)$ ，如果cross entropy比较大的话，说明output和target之间距离很远，这个network的parameter的loss是比较大的，反之则说明这组parameter是比较好的。

然后summation over所有training data的cross entropy $C^n(\theta)$ ，得到total loss $L(\theta)$ ，这就是我们的loss function，用这个 $L(\theta)$ 对某一个参数 $\omega$ 做偏微分，表达式如下：
$\frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial C^n(\theta)}{\partial w}$

这个表达式告诉我们，只需要考虑如何计算对某一笔data的 $\frac{\partial C^n(\theta)}{\partial w}$ ，再将所有training data的cross entropy对参数 $w$ 的偏微分累计求和，就可以把total loss对某一个参数 $w$ 的偏微分给计算出来

我们先考虑某一个神经元，假设只有两个input $x_1,x_2$ ，通过这个neuron，我们先得到 $z=b+w_1 x_1+w_2 x_2$ ，然后经过activation function从这个neuron中output出来，作为后续neuron的input，再经过了非常非常多的事情以后，会得到最终的output $y_1,y_2$

在这里插入图片描述
现在的问题是这样： $\frac{\partial C}{\partial w}$ 该怎么算？按照chain rule，可以把它拆分成两项， $\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial C}{\partial z}$ ，这两项分别去把它计算出来。前面这一项是比较简单的，后面这一项是比较复杂的，计算前面这一项 $\frac{\partial z}{\partial w}$ 的这个process，我们称之为Forward pass；而计算后面这项 $\frac{\partial C}{\partial z}$ 的process，我们称之为Backward pass。

Forward pass

先考虑 $\frac{\partial z}{\partial w}$ 这一项，完全可以秒算出来， $\frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2$ 。它的规律是这样的：求 $\frac{\partial z}{\partial w}$ ，就是看 $w$ 前面连接的input是什么，那微分后的 $\frac{\partial z}{\partial w}$ 值就是什么，因此只要计算出neural network里面每一个neuron的output就可以知道任意的 $z$ 对 $w$ 的偏微分。

比如input layer作为neuron的输入时， $w_1$ 前面连接的是 $x_1$ ，所以微分值就是 $x_1$ ； $w_2$ 前面连接的是 $x_2$ ，所以微分值就是 $x_2$ 。
比如hidden layer作为neuron的输入时，那该neuron的input就是前一层neuron的output，于是 $\frac{\partial z}{\partial w}$ 的值就是前一层的 $z$ 经过activation function之后输出的值

Backward pass

再考虑 $\frac{\partial C}{\partial z}$ 这一项，它是比较复杂的，这里我们假设activation function是sigmoid function

在这里插入图片描述

我们的 $z$ 通过activation function得到 $a$ ，这个neuron的output是 $a=\sigma(z)$ ，接下来这个 $a$ 会乘上某一个weight $w_3$ ，再加上其它一大堆的value得到 $z^{'}$ ，它是下一个neuron activation function的input，然后 $a$ 又会乘上另一个weight $w_4$ ，再加上其它一堆value得到 $z^{''}$ ，后面还会发生很多很多其他事情。

不过这里我们就只先考虑下一步会发生什么事情：
$\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a}$
这里的 $\frac{\partial a}{\partial z}$ 实际上就是activation function的微分（在这里就是sigmoid function的微分），接下来的问题是 $\frac{\partial C}{\partial a}$ 应该长什么样子呢？ $a$ 会影响 $z^{'}$ 和 $z^{''}$ ，而 $z^{'}$ 和 $z^{''}$ 会影响 $C$ ，所以通过chain rule可以得到
$\frac{\partial C}{\partial a}=\frac{\partial z'}{\partial a} \frac{\partial C}{\partial z'}+\frac{\partial z''}{\partial a} \frac{\partial C}{\partial z''}$
这里的 $\frac{\partial z'}{\partial a}=w_3$ ， $\frac{\partial z''}{\partial a}=w_4$ ，那 $\frac{\partial C}{\partial z'}$ 和 $\frac{\partial C}{\partial z''}$ 又该怎么算呢？这里先假设我们已经通过某种方法把 $\frac{\partial C}{\partial z'}$ 和 $\frac{\partial C}{\partial z''}$ 这两项给算出来了，然后回过头去就可以把 $\frac{\partial C}{\partial z}$ 给轻易地算出来
$\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a}=\sigma'(z)[w_3 \frac{\partial C}{\partial z'}+w_4 \frac{\partial C}{\partial z''}]$

这个式子还是蛮简单的，然后，我们可以从另外一个观点来看待这个式子。你可以想象说，现在有另外一个neuron，它不在我们原来的network里面，在下图中它被画成三角形，这个neuron的input就是 $\frac{\partial C}{\partial z'}$ 和 $\frac{\partial C}{\partial z''}$ ，那input $\frac{\partial C}{\partial z'}$ 就乘上 $w_3$ ，input $\frac{\partial C}{\partial z''}$ 就乘上 $w_4$ ，它们两个相加再乘上activation function的微分 $\sigma'(z)$ ，就可以得到output $\frac{\partial C}{\partial z}$

在这里插入图片描述

这张图描述了一个新的「neuron」，它的含义跟图下方的表达式是一模一样的，作这张图的目的是为了方便理解。值得注意的是，这里的 $\sigma'(z)$ 是一个constant常数，它并不是一个function，因为z其实在计算forward pass的时候就已经被决定好了，z是一个固定的值

所以这个neuron其实跟我们之前看到的sigmoid function是不一样的，它并不是把input通过一个non-linear进行转换，而是直接把input乘上一个constant $\sigma'(z)$ ，就得到了output，因此这个neuron被画成三角形，代表它跟我们之前看到的圆形的neuron的运作方式是不一样的，它是直接乘上一个constant（这里的三角形有点像电路里的运算放大器op-amp，它也是乘上一个constant）。现在我们最后需要解决的问题是，怎么计算 $\frac{\partial C}{\partial z'}$ 和 $\frac{\partial C}{\partial z''}$ 这两项，假设有两个不同的case：

Case 1: Output Layer

假设蓝色的这个neuron已经是hidden layer的最后一层了，也就是说连接在 $z^{'}$ 和 $z^{''}$ 后的这两个红色的neuron已经是output layer，它的output就已经是整个network的output了，这个时候计算就比较简单：
$\frac{\partial C}{\partial z'}=\frac{\partial y_1}{\partial z'} \frac{\partial C}{\partial y_1}$
其中 $\frac{\partial y_1}{\partial z'}$ 就是output layer的activation function (softmax) 对 $z^{'}$ 的偏微分。而 $\frac{\partial C}{\partial y_1}$ 就是loss对 $y_1$ 的偏微分，它取决于你的loss function是怎么定义的，也就是你的output和target之间是怎么evaluate的，你可以用cross entropy，也可以用mean square error，用不同的定义， $\frac{\partial C}{\partial y_1}$ 的值就不一样。这个时候，你就已经可以把 $C$ 对 $w_1$ 和 $w_2$ 的偏微分 $\frac{\partial C}{\partial w_1}$ 、 $\frac{\partial C}{\partial w_2}$ 算出来了。

在这里插入图片描述

Case 2: Not Output Layer

假设现在红色的neuron并不是整个network的output，那 $z^{'}$ 经过红色neuron的activation function得到 $a^{'}$ ，然后output $a^{'}$ 和 $w_5$ 、 $w_6$ 相乘并加上一堆其他东西分别得到 $z_a$ 和 $z_b$ ，如下图所示：

在这里插入图片描述

根据之前的推导证明类比，如果知道 $\frac{\partial C}{\partial z_a}$ 和 $\frac{\partial C}{\partial z_b}$ ，我们就可以计算 $\frac{\partial C}{\partial z'}$ ，如下图所示，借助运算放大器的辅助理解，将 $\frac{\partial C}{\partial z_a}$ 乘上 $w_5$ 和 $\frac{\partial C}{\partial z_b}$ 乘上 $w_6$ 的值加起来再通过op-amp，乘上放大系数 $\sigma'(z')$ ，就可以得到output $\frac{\partial C}{\partial z'}$ 。
$\frac{\partial C}{\partial z'}=\sigma'(z')[w_5 \frac{\partial C}{\partial z_a} + w_6 \frac{\partial C}{\partial z_b}]$

在这里插入图片描述

知道 $z^{'}$ 和 $z^{''}$ 就可以知道 $z$ ，知道 $z_a$ 和 $z_b$ 就可以知道 $z^{'}$ ，… ，现在这个过程就可以反复进行下去，直到找到output layer，我们可以算出确切的值，然后再一层一层反推回去。你可能会说，这个方法听起来挺让人崩溃的，每次要算一个微分的值，都要一路往后走，一直走到network的output，如果写成表达式的话，一层一层往后展开，感觉会是一个很可怕的式子，但是实际上并不是这个样子做的。你只要换一个方向，从output layer的 $\frac{\partial C}{\partial z}$ 开始算，你就会发现它的运算量跟原来的network的Feedforward path其实是一样的。

假设现在有6个neuron，每一个neuron的activation function的input分别是 $z_1$ 、 $z_2$ 、 $z_3$ 、 $z_4$ 、 $z_5$ 、 $z_6$ ，我们要计算 $C$ 对这些 $z$ 的偏微分，按照原来的思路，我们想要知道 $z_1$ 的偏微分，就要去算 $z_3$ 和 $z_4$ 的偏微分，想要知道 $z_3$ 和 $z_4$ 的偏微分，就又要去计算两遍 $z_5$ 和 $z_6$ 的偏微分，因此如果我们是从 $z_1$ 、 $z_2$ 的偏微分开始算，那就没有效率。但是，如果你反过来先去计算 $z_5$ 和 $z_6$ 的偏微分的话，这个process，就突然之间变得有效率起来了，我们先去计算 $\frac{\partial C}{\partial z_5}$ 和 $\frac{\partial C}{\partial z_6}$ ，然后就可以算出 $\frac{\partial C}{\partial z_3}$ 和 $\frac{\partial C}{\partial z_4}$ ，最后就可以算出 $\frac{\partial C}{\partial z_1}$ 和 $\frac{\partial C}{\partial z_2}$ ，而这一整个过程，就可以转化为op-amp运算放大器的那张图：

在这里插入图片描述

这里每一个op-amp的放大系数就是 $\sigma'(z_1)$ 、 $\sigma'(z_2)$ 、 $\sigma'(z_3)$ 、 $\sigma'(z_4)$ ，所以整一个流程就是，先快速地计算出 $\frac{\partial C}{\partial z_5}$ 和 $\frac{\partial C}{\partial z_6}$ ，然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面，再通过op-amp的放大，就可以得到 $\frac{\partial C}{\partial z_3}$ 和 $\frac{\partial C}{\partial z_4}$ 这两个偏微分的值，再让它们乘上一些weight，并且通过一个op-amp，就得到 $\frac{\partial C}{\partial z_1}$ 和 $\frac{\partial C}{\partial z_2}$ 这两个偏微分的值，这样就计算完了，这个步骤，就叫做Backward pass。

在做Backward pass的时候，实际上的做法就是建另外一个neural network，本来正向neural network里面的activation function都是sigmoid function，而现在计算Backward pass的时候，就是建一个反向的neural network，它的activation function就是一个运算放大器op-amp，要先算完Forward pass得知 $z_i$ 的值后，才算得出来。

每一个反向neuron的input是loss $C$ 对后面一层layer的 $z$ 的偏微分 $\frac{\partial C}{\partial z}$ ，output则是loss $C$ 对这个neuron的 $z$ 的偏微分 $\frac{\partial C}{\partial z}$ ，做Backward pass就是通过这样一个反向neural network的运算，把loss $C$ 对每一个neuron的 $z$ 的偏微分 $\frac{\partial C}{\partial z}$ 都给算出来。

如果是正向做Backward pass的话，实际上每次计算一个 $\frac{\partial C}{\partial z}$ ，就需要把该neuron后面所有的 $\frac{\partial C}{\partial z}$ 都给计算一遍，会造成很多不必要的重复运算，如果写成code的形式，就相当于调用了很多次重复的函数；而如果是反向做Backward pass，实际上就是把这些调用函数的过程都变成调用值的过程，因此可以直接计算出结果，而不需要占用过多的堆栈空间。

Summary

最后，我们来总结一下Backpropagation是怎么做的：

Forward pass，每个neuron的activation function的output，就是它所连接的weight的 $\frac{\partial z}{\partial w}$
Backward pass，建一个与原来方向相反的neural network，它的三角形neuron的output就是 $\frac{\partial C}{\partial z}$

把通过forward pass得到的 $\frac{\partial z}{\partial w}$ 和通过backward pass得到的 $\frac{\partial C}{\partial z}$ 乘起来就可以得到 $C$ 对 $w$ 的偏微分 $\frac{\partial C}{\partial w}$
$\frac{\partial C}{\partial w} = \frac{\partial z}{\partial w}|_{forward\ pass} \cdot \frac{\partial C}{\partial z}|_{backward \ pass}$