深度学习简介及反向传播

Datawhale开源学习,机器学习课程,项目地址:https://github.com/datawhalechina/leeml-notes

之前学习机器学习的时候,总结了三步:

  1. define a set of function
  2. goodness of function
  3. pick the best function

这三步所做的事情就是选择函数模型,优化函数模型,选出最好的拟合模型。在深度学习中,我们通过神经网络构建多层神经网络,输出结果由输入结合权重及偏差bias计算得出。神经网络使得我们可以构建出大量的函数。并不断优化拟合,输出最终结果。

深度学习归纳出三个步骤为:

  1. 神经网络(neural network)
  2. 模型评估(goodness of function)
  3. 选择最优函数(pick the best function)

与机器学习不同的地方就在于,第一处并非通过函数拟合,而是建立神经网络。接下来来说说这三步。

Step1:神经网络 neural network

神经网络中,由多个输入和输出连接而成,其内部的连接方式也有很多种,这样就会在神经网络中产生不同的结构。其内部也有很多逻辑回归函数,每个逻辑回归都有自己的权重和偏差,这些权重和偏差就是参数,会被不断的训练。

最常见的一种神经网络:全连接前馈神经网络,前馈(feedforward)也可以称为前向,从信号流向来理解就是输入信号进入网络后,信号流动是单向的,即信号从前一层流向后一层,一直到输出层,其中任意两层之间的连接并没有反馈(feedback),亦即信号没有从后一层又返回到前一层。如果一个神经网络里面的权重weight和偏差bias已知的话,它就可以表示一个函数function,它的input是一个向量,output也是个向量,这个向量里放的是样本点的特征,向量的维度就是特征的个数。

在这里插入图片描述
如果我们不知道参数,只定义出神经网络结构(神经元如何连接在一起),那实际上说明我们定义了一个函数集合(funciton set),我们给这个神经网络设置不同的参数,它就会变成不同的function。神经网络的好处在于,它可以构建的非常庞大,构建出来的function set包含了很多逻辑回归和线性回归所无法包含到的function。

下图中,每一排表示一个layer,每个layer里面的每一个球都代表一个神经元。因为layer和layer之间,所有的神经元都是两两连接,所以它叫Fully connected的network;因为现在传递的方向是从layer 1->2->3,由前往后传,所以它叫做Feedforward network

  • layer和layer之间神经元是「两两互相连接」的,layer 1的神经元「输出」会连接给layer 2的每一个神经元作为「输入」。
  • 对整个神经网络来说,它需要一个input,这个input就是一个feature的vector,而对layer 1的每一个神经元来说,它的input就是input layer的每一个dimension。
  • 最后那个layer L,由于它后面没有接其它东西了,所以它的output就是整个network的output。
  • 这里每一个layer都是有名字的,input的地方,叫做input layer,输入层(严格来说input layer其实不是一个layer,它跟其他layer不一样,不是由神经元所组成的);output的地方,叫做output layer,输出层;其余的地方,叫做hidden layer,隐藏层。
  • 每一个神经元里面的sigmoid function,在Deep Learning中被称为activation function激活函数,事实上它不见得一定是sigmoid function,还可以是其他function(sigmoid function是从Logistic Regression迁移过来的,现在已经较少在Deep learning里使用了)
  • 有很多层layers的neural network,被称为DNN(Deep Neural Network)

在这里插入图片描述

神经网络中的矩阵运算

network的运作过程,我们通常会用Matrix Operation来表示,以下图为例,假设第一层hidden layers的两个neuron,它们的weight分别是 w 1 = 1 , w 2 = − 2 , w 1 ′ = − 1 , w 2 ′ = 1 w_1=1,w_2=-2,w_1'=-1,w_2'=1 w1=1,w2=2,w1=1,w2=1,那就可以把它们排成一个matrix: [ 1     − 2 − 1     1 ] \begin{bmatrix}1 \ \ \ -2\\ -1 \ \ \ 1 \end{bmatrix} [1   21   1],而我们的input又是一个2*1的vector: [ 1 − 1 ] \begin{bmatrix}1\\-1 \end{bmatrix} [11],将w和x相乘,再加上bias的vector: [ 1 0 ] \begin{bmatrix}1\\0 \end{bmatrix} [10],就可以得到这一层的vector z,再经过activation function得到这一层的output。

这里还是用Logistic Regression迁移过来的sigmoid function作为运算
σ ( [ 1     − 2 − 1     1 ] [ 1 − 1 ] + [ 1 0 ] ) = σ ( [ 4 − 2 ] ) = [ 0.98 0.12 ] \sigma(\begin{bmatrix}1 \ \ \ -2\\ -1 \ \ \ 1 \end{bmatrix} \begin{bmatrix}1\\-1 \end{bmatrix}+\begin{bmatrix}1\\0 \end{bmatrix})=\sigma(\begin{bmatrix}4\\-2 \end{bmatrix})=\begin{bmatrix}0.98\\0.12 \end{bmatrix} σ([1   21   1][11]+[10])=σ([42])=[0.980.12]

在这里插入图片描述
这里我们把所有的变量都以matrix的形式表示出来,注意 W i W^i Wi的matrix,每一行对应的是一个neuron的weight,行数就是neuron的个数,列数就是feature的数量。input x,bias b和output y都是一个列向量,行数是feature的个数,也是neuron的个数。neuron的本质就是把feature transform到另一个space。

在这里插入图片描述
把这件事情写成矩阵运算的好处是,可以用GPU加速,GPU对matrix的运算是比CPU要来的快的,所以我们写neural network的时候,习惯把它写成matrix operation,然后call GPU来加速它。

前面说大致把神经网络划分为输入层、隐藏层、输出层三部分。这个隐藏层其实就相当于是在做特征提取,隐藏层的特征提取就代替了手动进行特征转换的操作。经过特征提取得到的output输出 x 1 , x 2 , . . . , x k x_1,x_2,...,x_k x1,x2,...,xk就可悲当作一组新的feature特征。

输出层做的事情类似于一个Multi-class classifier,它是拿经过「特征提取」转换后的那一组比较好的feature(能够被很好地separate)进行分类的,由于我们把「输出层」看做是一个Multi-class classifier,所以我们会在最后一个layer加上softmax。

在这里插入图片描述

Step2:模型评估 goodness of function

在这里插入图片描述

模型评估用来反映网络的loss,机器学习中通过loss function损失函数去评判模型的好坏,在神经网络中,这里的loss function我们通常采用交叉熵(cross entropy)函数来作为定义,对 y y y y ^ \hat{y} y^​​的损失进行计算,接下来我们就是调整参数,让交叉熵越小越好。以下为交叉熵的定义:
C r o s s   E n t r o p y : C ( y , y ^ ) = − ∑ i = 1 10 y ^ i l n y i Cross \ Entropy :C(y,\hat{y})=-\sum\limits_{i=1}^{10}\hat{y}_i lny_i Cross Entropy:C(y,y^)=i=110y^ilnyi

在这里插入图片描述
对于损失,我们不单单要计算一笔数据的,而是要计算整体所有训练数据的损失,然后把所有的训练数据的损失都加起来,得到一个总体损失 L = ∑ n = 1 N C n L=\sum\limits_{n=1}^NC^n L=n=1NCn。接下来就是在function set里面找到一组函数能最小化这个总体损失 L L L,或者是找一组神经网络的参数 θ \theta θ,来最小化总体损失 L L L

Step3:选择最优函数 pick the best function

接下来就去调整参数,让这个cross entropy越小越好,当然整个training data里面不会只有一笔data,你需要把所有data的cross entropy都sum起来,得到一个total loss L = ∑ n = 1 N C n L=\sum\limits_{n=1}^NC^n L=n=1NCn,得到loss function之后你要做的事情是找一组network的parameters: θ ∗ \theta^* θ,它可以minimize这个total loss,这组parameter 对应的function就是我们最终训练好的model。那怎么去找这个使total loss minimize的 θ ∗ \theta^* θ呢?使用的方法就是我们的老朋友Gradient Descent梯度下降。实际上在deep learning里面用gradient descent,跟在linear regression里面使用完全没有什么差别,只是function和parameter变得更复杂了而已,其他事情都是一模一样的。

现在你的 θ \theta θ里面是一大堆的weight、bias参数,先random找一个初始值,接下来去计算每一个参数对total loss的偏微分,把这些偏微分全部集合起来,就叫做gradient,有了这些偏微分以后,你就可以更新所有的参数,都减掉learning rate乘上偏微分的值,这个process反复进行下去,最终找到一组好的参数,就做完deep learning的training了。

在这里插入图片描述
在这里插入图片描述
具体流程 θ \theta θ是一组包含权重和偏差的参数集合,随机找一个初试值,接下来计算一下每个参数对应偏微分,得到的一个偏微分的集合 ∇ L \nabla{L} L就是梯度,有了这些偏微分,我们就可以不断更新梯度得到新的参数,这样不断反复进行,就能得到一组最好的参数使得损失函数的值最小。

所以,其实deep learning就是这样子了,就算是alpha go,也是用gradient descent train出来的,可能在你的想象中它有多么得高大上,实际上就是在用gradient descent这样朴素的方法。

反向传播

Backpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法。梯度下降法,跟linear Regression或者是Logistic Regression是一模一样的,唯一的区别就在于当它用在neural network的时候,network parameters θ = w 1 , w 2 , . . . , b 1 , b 2 , . . . \theta=w_1,w_2,...,b_1,b_2,... θ=w1,w2,...,b1,b2,...里面可能会有将近million个参数。

所以现在最大的困难是,如何有效地把这个近百万维的vector给计算出来,这就是Backpropagation要做的事情,所以Backpropagation并不是一个和gradient descent不同的training的方法,它就是gradient descent,它只是一个比较有效率的算法,让你在计算这个gradient的vector的时候更有效率。

在这里插入图片描述

  • 给到 θ \theta θ(weight and bias)
  • 先选择一个初始的 θ 0 \theta^0 θ0的损失函数(Loss Function)设一个参数的偏微分
  • 计算完这个向量(vector)偏微分,然后就可以去更新的你 θ \theta θ
  • 百万级别的参数(millions of parameters)
  • 反向传播(Backpropagation)是一个比较有效率的算法,让你计算梯度(Gradient) 的向量(Vector)时,可以有效率的计算出来

反向传播中没有什么高深的学问,在进行反向传播时,用到的是链式法则,你只需要搞清楚什么是链式法则即可,尝试考虑以下两种情况:
在这里插入图片描述
第一种情况, x x x作为输入,当 x x x在神经网络中不断被修改时, x x x作为输入会影响到输出 y y y,然后在下一层, y y y作为 z z z的输入,当 y y y发生改变时,又回影响到 z z z。如果要计算 z z z x x x的变换时,可以将 d z d x \frac{dz}{dx} dxdz拆分为 d z d y ∗ d y d x \frac{dz}{dy}*\frac{dy}{dx} dydzdxdy

第二种情况相较第一种情况而言,是一种多变量的形式,因此在求微分时,需要对每一个变量求偏导数去计算。以上就是链式法则求导数的操作。

对整个neural network,我们定义了一个loss function: L ( θ ) = ∑ n = 1 N C n ( θ ) L(\theta)=\sum\limits_{n=1}^N C^n(\theta) L(θ)=n=1NCn(θ),它等于所有training data的loss之和。我们把training data里任意一个样本点 x n x^n xn代到neural network里面,它会output一个 y n y^n yn,我们把这个output跟样本点本身的label标注的target y ^ n \hat{y}^n y^n作cross entropy,这个交叉熵定义了output y n y^n yn和target y ^ n \hat{y}^n y^n之间的距离 C n ( θ ) C^n(\theta) Cn(θ),如果cross entropy比较大的话,说明output和target之间距离很远,这个network的parameter的loss是比较大的,反之则说明这组parameter是比较好的。

然后summation over所有training data的cross entropy C n ( θ ) C^n(\theta) Cn(θ),得到total loss L ( θ ) L(\theta) L(θ),这就是我们的loss function,用这个 L ( θ ) L(\theta) L(θ)对某一个参数 ω \omega ω做偏微分,表达式如下:
∂ L ( θ ) ∂ w = ∑ n = 1 N ∂ C n ( θ ) ∂ w \frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial C^n(\theta)}{\partial w} wL(θ)=n=1NwCn(θ)

这个表达式告诉我们,只需要考虑如何计算对某一笔data的 ∂ C n ( θ ) ∂ w \frac{\partial C^n(\theta)}{\partial w} wCn(θ),再将所有training data的cross entropy对参数 w w w的偏微分累计求和,就可以把total loss对某一个参数 w w w的偏微分给计算出来

我们先考虑某一个神经元,假设只有两个input x 1 , x 2 x_1,x_2 x1,x2,通过这个neuron,我们先得到 z = b + w 1 x 1 + w 2 x 2 z=b+w_1 x_1+w_2 x_2 z=b+w1x1+w2x2,然后经过activation function从这个neuron中output出来,作为后续neuron的input,再经过了非常非常多的事情以后,会得到最终的output y 1 , y 2 y_1,y_2 y1,y2

在这里插入图片描述
现在的问题是这样: ∂ C ∂ w \frac{\partial C}{\partial w} wC该怎么算?按照chain rule,可以把它拆分成两项, ∂ C ∂ w = ∂ z ∂ w ∂ C ∂ z \frac{\partial C}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial C}{\partial z} wC=wzzC,这两项分别去把它计算出来。前面这一项是比较简单的,后面这一项是比较复杂的,计算前面这一项 ∂ z ∂ w \frac{\partial z}{\partial w} wz的这个process,我们称之为Forward pass;而计算后面这项 ∂ C ∂ z \frac{\partial C}{\partial z} zC的process,我们称之为Backward pass

Forward pass

先考虑 ∂ z ∂ w \frac{\partial z}{\partial w} wz这一项,完全可以秒算出来, ∂ z ∂ w 1 = x 1 ,   ∂ z ∂ w 2 = x 2 \frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2 w1z=x1, w2z=x2。它的规律是这样的:求 ∂ z ∂ w \frac{\partial z}{\partial w} wz,就是看 w w w前面连接的input是什么,那微分后的 ∂ z ∂ w \frac{\partial z}{\partial w} wz值就是什么,因此只要计算出neural network里面每一个neuron的output就可以知道任意的 z z z w w w的偏微分。

  • 比如input layer作为neuron的输入时, w 1 w_1 w1前面连接的是 x 1 x_1 x1,所以微分值就是 x 1 x_1 x1 w 2 w_2 w2前面连接的是 x 2 x_2 x2,所以微分值就是 x 2 x_2 x2
  • 比如hidden layer作为neuron的输入时,那该neuron的input就是前一层neuron的output,于是 ∂ z ∂ w \frac{\partial z}{\partial w} wz的值就是前一层的 z z z经过activation function之后输出的值

Backward pass

再考虑 ∂ C ∂ z \frac{\partial C}{\partial z} zC这一项,它是比较复杂的,这里我们假设activation function是sigmoid function

在这里插入图片描述
在这里插入图片描述

我们的 z z z通过activation function得到 a a a,这个neuron的output是 a = σ ( z ) a=\sigma(z) a=σ(z),接下来这个 a a a会乘上某一个weight w 3 w_3 w3,再加上其它一大堆的value得到 z ′ z' z,它是下一个neuron activation function的input,然后 a a a又会乘上另一个weight w 4 w_4 w4,再加上其它一堆value得到 z ′ ′ z'' z,后面还会发生很多很多其他事情。

不过这里我们就只先考虑下一步会发生什么事情:
∂ C ∂ z = ∂ a ∂ z ∂ C ∂ a \frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a} zC=zaaC
这里的 ∂ a ∂ z \frac{\partial a}{\partial z} za实际上就是activation function的微分(在这里就是sigmoid function的微分),接下来的问题是 ∂ C ∂ a \frac{\partial C}{\partial a} aC应该长什么样子呢? a a a会影响 z ′ z' z z ′ ′ z'' z,而 z ′ z' z z ′ ′ z'' z会影响 C C C,所以通过chain rule可以得到
∂ C ∂ a = ∂ z ′ ∂ a ∂ C ∂ z ′ + ∂ z ′ ′ ∂ a ∂ C ∂ z ′ ′ \frac{\partial C}{\partial a}=\frac{\partial z'}{\partial a} \frac{\partial C}{\partial z'}+\frac{\partial z''}{\partial a} \frac{\partial C}{\partial z''} aC=azzC+azzC
这里的 ∂ z ′ ∂ a = w 3 \frac{\partial z'}{\partial a}=w_3 az=w3 ∂ z ′ ′ ∂ a = w 4 \frac{\partial z''}{\partial a}=w_4 az=w4,那 ∂ C ∂ z ′ \frac{\partial C}{\partial z'} zC ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} zC又该怎么算呢?这里先假设我们已经通过某种方法把 ∂ C ∂ z ′ \frac{\partial C}{\partial z'} zC ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} zC这两项给算出来了,然后回过头去就可以把 ∂ C ∂ z \frac{\partial C}{\partial z} zC给轻易地算出来
∂ C ∂ z = ∂ a ∂ z ∂ C ∂ a = σ ′ ( z ) [ w 3 ∂ C ∂ z ′ + w 4 ∂ C ∂ z ′ ′ ] \frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a}=\sigma'(z)[w_3 \frac{\partial C}{\partial z'}+w_4 \frac{\partial C}{\partial z''}] zC=zaaC=σ(z)[w3zC+w4zC]

这个式子还是蛮简单的,然后,我们可以从另外一个观点来看待这个式子。你可以想象说,现在有另外一个neuron,它不在我们原来的network里面,在下图中它被画成三角形,这个neuron的input就是 ∂ C ∂ z ′ \frac{\partial C}{\partial z'} zC ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} zC,那input ∂ C ∂ z ′ \frac{\partial C}{\partial z'} zC就乘上 w 3 w_3 w3,input ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} zC就乘上 w 4 w_4 w4,它们两个相加再乘上activation function的微分 σ ′ ( z ) \sigma'(z) σ(z),就可以得到output ∂ C ∂ z \frac{\partial C}{\partial z} zC

在这里插入图片描述

这张图描述了一个新的「neuron」,它的含义跟图下方的表达式是一模一样的,作这张图的目的是为了方便理解。值得注意的是,这里的 σ ′ ( z ) \sigma'(z) σ(z)是一个constant常数,它并不是一个function,因为z其实在计算forward pass的时候就已经被决定好了,z是一个固定的值

所以这个neuron其实跟我们之前看到的sigmoid function是不一样的,它并不是把input通过一个non-linear进行转换,而是直接把input乘上一个constant σ ′ ( z ) \sigma'(z) σ(z),就得到了output,因此这个neuron被画成三角形,代表它跟我们之前看到的圆形的neuron的运作方式是不一样的,它是直接乘上一个constant(这里的三角形有点像电路里的运算放大器op-amp,它也是乘上一个constant)。现在我们最后需要解决的问题是,怎么计算 ∂ C ∂ z ′ \frac{\partial C}{\partial z'} zC ∂ C ∂ z ′ ′ \frac{\partial C}{\partial z''} zC这两项,假设有两个不同的case:

Case 1: Output Layer

假设蓝色的这个neuron已经是hidden layer的最后一层了,也就是说连接在 z ′ z' z z ′ ′ z'' z后的这两个红色的neuron已经是output layer,它的output就已经是整个network的output了,这个时候计算就比较简单:
∂ C ∂ z ′ = ∂ y 1 ∂ z ′ ∂ C ∂ y 1 \frac{\partial C}{\partial z'}=\frac{\partial y_1}{\partial z'} \frac{\partial C}{\partial y_1} zC=zy1y1C
其中 ∂ y 1 ∂ z ′ \frac{\partial y_1}{\partial z'} zy1就是output layer的activation function (softmax) 对 z ′ z' z的偏微分。而 ∂ C ∂ y 1 \frac{\partial C}{\partial y_1} y1C就是loss对 y 1 y_1 y1的偏微分,它取决于你的loss function是怎么定义的,也就是你的output和target之间是怎么evaluate的,你可以用cross entropy,也可以用mean square error,用不同的定义, ∂ C ∂ y 1 \frac{\partial C}{\partial y_1} y1C的值就不一样。这个时候,你就已经可以把 C C C w 1 w_1 w1 w 2 w_2 w2的偏微分 ∂ C ∂ w 1 \frac{\partial C}{\partial w_1} w1C ∂ C ∂ w 2 \frac{\partial C}{\partial w_2} w2C算出来了。

在这里插入图片描述

Case 2: Not Output Layer

假设现在红色的neuron并不是整个network的output,那 z ′ z' z经过红色neuron的activation function得到 a ′ a' a,然后output a ′ a' a w 5 w_5 w5 w 6 w_6 w6相乘并加上一堆其他东西分别得到 z a z_a za z b z_b zb,如下图所示:

在这里插入图片描述

根据之前的推导证明类比,如果知道 ∂ C ∂ z a \frac{\partial C}{\partial z_a} zaC ∂ C ∂ z b \frac{\partial C}{\partial z_b} zbC,我们就可以计算 ∂ C ∂ z ′ \frac{\partial C}{\partial z'} zC,如下图所示,借助运算放大器的辅助理解,将 ∂ C ∂ z a \frac{\partial C}{\partial z_a} zaC乘上 w 5 w_5 w5 ∂ C ∂ z b \frac{\partial C}{\partial z_b} zbC乘上 w 6 w_6 w6的值加起来再通过op-amp,乘上放大系数 σ ′ ( z ′ ) \sigma'(z') σ(z),就可以得到output ∂ C ∂ z ′ \frac{\partial C}{\partial z'} zC
∂ C ∂ z ′ = σ ′ ( z ′ ) [ w 5 ∂ C ∂ z a + w 6 ∂ C ∂ z b ] \frac{\partial C}{\partial z'}=\sigma'(z')[w_5 \frac{\partial C}{\partial z_a} + w_6 \frac{\partial C}{\partial z_b}] zC=σ(z)[w5zaC+w6zbC]

在这里插入图片描述

知道 z ′ z' z z ′ ′ z'' z就可以知道 z z z,知道 z a z_a za z b z_b zb就可以知道 z ′ z' z,… ,现在这个过程就可以反复进行下去,直到找到output layer,我们可以算出确切的值,然后再一层一层反推回去。你可能会说,这个方法听起来挺让人崩溃的,每次要算一个微分的值,都要一路往后走,一直走到network的output,如果写成表达式的话,一层一层往后展开,感觉会是一个很可怕的式子,但是实际上并不是这个样子做的。你只要换一个方向,从output layer的 ∂ C ∂ z \frac{\partial C}{\partial z} zC开始算,你就会发现它的运算量跟原来的network的Feedforward path其实是一样的。

假设现在有6个neuron,每一个neuron的activation function的input分别是 z 1 z_1 z1 z 2 z_2 z2 z 3 z_3 z3 z 4 z_4 z4 z 5 z_5 z5 z 6 z_6 z6,我们要计算 C C C对这些 z z z的偏微分,按照原来的思路,我们想要知道 z 1 z_1 z1的偏微分,就要去算 z 3 z_3 z3 z 4 z_4 z4的偏微分,想要知道 z 3 z_3 z3 z 4 z_4 z4的偏微分,就又要去计算两遍 z 5 z_5 z5 z 6 z_6 z6的偏微分,因此如果我们是从 z 1 z_1 z1 z 2 z_2 z2的偏微分开始算,那就没有效率。但是,如果你反过来先去计算 z 5 z_5 z5 z 6 z_6 z6的偏微分的话,这个process,就突然之间变得有效率起来了,我们先去计算 ∂ C ∂ z 5 \frac{\partial C}{\partial z_5} z5C ∂ C ∂ z 6 \frac{\partial C}{\partial z_6} z6C,然后就可以算出 ∂ C ∂ z 3 \frac{\partial C}{\partial z_3} z3C ∂ C ∂ z 4 \frac{\partial C}{\partial z_4} z4C,最后就可以算出 ∂ C ∂ z 1 \frac{\partial C}{\partial z_1} z1C ∂ C ∂ z 2 \frac{\partial C}{\partial z_2} z2C,而这一整个过程,就可以转化为op-amp运算放大器的那张图:

在这里插入图片描述

这里每一个op-amp的放大系数就是 σ ′ ( z 1 ) \sigma'(z_1) σ(z1) σ ′ ( z 2 ) \sigma'(z_2) σ(z2) σ ′ ( z 3 ) \sigma'(z_3) σ(z3) σ ′ ( z 4 ) \sigma'(z_4) σ(z4),所以整一个流程就是,先快速地计算出 ∂ C ∂ z 5 \frac{\partial C}{\partial z_5} z5C ∂ C ∂ z 6 \frac{\partial C}{\partial z_6} z6C,然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面,再通过op-amp的放大,就可以得到 ∂ C ∂ z 3 \frac{\partial C}{\partial z_3} z3C ∂ C ∂ z 4 \frac{\partial C}{\partial z_4} z4C这两个偏微分的值,再让它们乘上一些weight,并且通过一个op-amp,就得到 ∂ C ∂ z 1 \frac{\partial C}{\partial z_1} z1C ∂ C ∂ z 2 \frac{\partial C}{\partial z_2} z2C这两个偏微分的值,这样就计算完了,这个步骤,就叫做Backward pass。

在做Backward pass的时候,实际上的做法就是建另外一个neural network,本来正向neural network里面的activation function都是sigmoid function,而现在计算Backward pass的时候,就是建一个反向的neural network,它的activation function就是一个运算放大器op-amp,要先算完Forward pass得知 z i z_i zi的值后,才算得出来。

每一个反向neuron的input是loss C C C对后面一层layer的 z z z的偏微分 ∂ C ∂ z \frac{\partial C}{\partial z} zC,output则是loss C C C对这个neuron的 z z z的偏微分 ∂ C ∂ z \frac{\partial C}{\partial z} zC,做Backward pass就是通过这样一个反向neural network的运算,把loss C C C对每一个neuron的 z z z的偏微分 ∂ C ∂ z \frac{\partial C}{\partial z} zC都给算出来。

如果是正向做Backward pass的话,实际上每次计算一个 ∂ C ∂ z \frac{\partial C}{\partial z} zC,就需要把该neuron后面所有的 ∂ C ∂ z \frac{\partial C}{\partial z} zC都给计算一遍,会造成很多不必要的重复运算,如果写成code的形式,就相当于调用了很多次重复的函数;而如果是反向做Backward pass,实际上就是把这些调用函数的过程都变成调用值的过程,因此可以直接计算出结果,而不需要占用过多的堆栈空间。

Summary

最后,我们来总结一下Backpropagation是怎么做的:

  • Forward pass,每个neuron的activation function的output,就是它所连接的weight的 ∂ z ∂ w \frac{\partial z}{\partial w} wz
  • Backward pass,建一个与原来方向相反的neural network,它的三角形neuron的output就是 ∂ C ∂ z \frac{\partial C}{\partial z} zC

把通过forward pass得到的 ∂ z ∂ w \frac{\partial z}{\partial w} wz和通过backward pass得到的 ∂ C ∂ z \frac{\partial C}{\partial z} zC乘起来就可以得到 C C C w w w的偏微分 ∂ C ∂ w \frac{\partial C}{\partial w} wC
∂ C ∂ w = ∂ z ∂ w ∣ f o r w a r d   p a s s ⋅ ∂ C ∂ z ∣ b a c k w a r d   p a s s \frac{\partial C}{\partial w} = \frac{\partial z}{\partial w}|_{forward\ pass} \cdot \frac{\partial C}{\partial z}|_{backward \ pass} wC=wzforward passzCbackward pass

在这里插入图片描述


除了学习深度学习以及反向传播理论外,我还使用pytorch跑了一下手写数字识别MNIST,感兴趣的同学可以参考:https://www.kaggle.com/miseryjerry/mnist-pytorch

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值