YOLOv3反向传播原理之公式推导

最新推荐文章于 2024-12-18 14:00:15 发布

原创

最新推荐文章于 2024-12-18 14:00:15 发布 · 1.4k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #卷积神经网络 #人工智能 #深度学习

本文详细介绍了YOLOv3网络中反向传播的原理，通过求导推导出针对输出和权重的导数公式，涉及ReLU和sigmoid激活函数，并解释了在YOLO层中直接使用误差delta的原因。

YOLOv3反向传播原理之公式推导

YOLOv3反向传播和所有的神经网络反向传播道理都一样，都是通过求LOSS对神经元仿射变换权重的导数，计算出一个权重变化的方向和步长，最终计算出更新的权重。
传播的是LOSS，计算的是权重变化的梯度，最终求得的是更新的权重。YOLOv3为卷积神经网络，但是卷积和全连接原理相同，都是仿射变换，区别是卷积层再实际计算过程中需要通过feature map矩阵的重排和矩阵计算完成梯度计算。所以卷积神经网络的反向传播求导计算原理可以完全参考全连接，作为不能回避的内容，本文首先对反向传播原理再推导一遍，对这个过程很熟悉的朋友可以跳过第一节。
反向传播就是一个求导的过程，但是大家在推导的时候很快就晕了，我觉的有两个原因：一是求导主要拆分为求针对输出的导数和求针对权重的导数两个任务，两个任务随着传播的进行交替进行，如果把这两个任务糊在一起理解，很快晕菜；二是每一步的下标很容易混乱，看着后面的，忘着前面的，这个主要靠耐心，多看几遍不会忘。
下面我们先画一个神经网络原理图，定义一下公式计算中的变量，接着解释“两个任务”。原理图如下：

在这里插入图片描述

图中，蓝色圆形为求和单元，黄色方形为激活单元。假设网络为 $L$ 层，每层的神经元个数为 $N (l)$ 个。输入为 $x1,0,x2,0,...,xN(0),0}\lbrace{x_{1,0},x_{2,0},...,x_{N(0),0}}\rbrace$ ，表示初始层的输入。第 $l$ 层第 $n$ 个神经元的输入为 $y1,l−1,y2,l−1,...,yN(l−1),l−1}\lbrace{y_{1,l-1},y_{2,l-1},...,y_{N(l-1),l-1}}\rbrace$ ，对应的仿射变换的权重为 $w1,n,l−1,w2,n,l−1,...,wN(l−2),n,l−1}\lbrace{w_{1,n,l-1},w_{2,n,l-1},...,w_{N(l-2),n,l-1}}\rbrace$ ，偏置为 $b_{n,l-1}$ 。经过放射变换后的到 $z_{n,l}$ ，再经过激活函数得到 $y_{n,l}$ 。第l层输出为 $N_{l}$ 个。
在我们前面一篇文章《YOLO中LOSS函数的计算》中，我们对二分类交叉熵损失函数和平方差损失函数进行求导，证明两种损失函数具有一致性。这里为了方便计算假设LOSS函数为
$-\frac{1}{2}\sum_{n=1}^{N(l),l=L}(y_{n,l}^{\prime}-y_{n,l})^{2}$
其中， $yn,l′y_{n,l}^{\prime}$ 表示真值，为了使推导更具有普遍性，这个LOSS函数并不特指回归还是分类。同时，为了方便后续YOLO源码分析，我们令 $y_{n,l}^{\prime}-y_{n,l}$ ，则LOSS函数如下
$-\frac{1}{2}\sum_{n=1}^{N(l),l=L}delta_{n,l}^{2}$
接下来要做的事就是求导。我们前面说了，求导就是求针对输出的导数和求权重的导数，这两个求导交替进行。按照一般的思路，我们这里从头开始，最后归纳出普遍的求导公式。
首先，第 $L$ 层针对输出值 $y_{n,L}$ 的导数为
$\frac{\partial{LOSS}}{\partial{y_{n,l}}} = -delta_{n,l}\frac{\partial{delta_{n,l}}}{\partial{y_{n,l}}} = delta_{n,l}$
第 $L$ 层第 $n$ 个神经元，针对权重 $w_{n(L-1),n(L),L}$ 的导数为

$\frac{\partial{LOSS}}{\partial{w_{n(L-1),n(L),L}}} = \frac{\partial{LOSS}}{\partial{y_{n(L),L}}}\frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}\frac{\partial{z_{n(L),L}}}{\partial{w_{n(L-1),n(L),L}}} = \frac{\partial{y_{n(L),L}}}{\partial{z_{n(L),L}}}delta_{n(L),L}y_{n(L-1),L-1}$