标记规定

$\mathop \theta \nolimits_{jk}^l$ ：代表连接第l层第k个神经元和第l+1层第j个神经元的权重参数。
$\mathop z\nolimits_j^l$ : 代表第l层第j个神经元的输入。
$\mathop a\nolimits_j^l$ : 代表第l层第j个神经元的输出。
$\sigma$ ：代表激活函数。
$\mathop \delta \nolimits_j^l$ :代表第l层第j个神经元产生的错误。
L:代表神经网络的层数（这里可以理解为3）。
c :代表代价函数（不太明白的话可以就直接理解为关于输出层a的函数）。
这里的规定标记不熟悉的话可以看一下吴恩达大佬的机器学习课程。

公式一（反向传播最后一层的错误）

我们不采用向量的形式来推导，这里仅是涉及到标量的计算。
根据定义： $\mathop \delta \nolimits_j^l$ = $\frac{{\delta {\rm{C}}}}{{\delta \mathop z\nolimits_j^l }}$ （学过微积分的同学肯定很好理解，这里的错误就是反应了这个神经元对代价函数的影响有多大）。
由链式法则可以得到：
$\mathop \delta \nolimits_j^L$ = $\frac{{\delta {\rm{C}}}}{{\delta \mathop a\nolimits_j^L }}$ * $\frac{{\delta {\rm{ \mathop a\nolimits_j^L}}}}{{\delta \mathop z\nolimits_j^L }}$ 。这两个式子就很容易算出来，第一个在已知C的时候很容易就求出来了，第二个的话因为 $\mathop a\nolimits_j^l$ = $\sigma$ ( $\mathop z\nolimits_j^L$ ),所以也很容易求出来（但是这里特别要注意的是因为我们反向传播的时候是只是知道 $\mathop a\nolimits_j^L$ 的值，所以需要用 $\mathop a\nolimits_j^L$ 来计算 $\sigma$ '( $\mathop z\nolimits_j^L$ ）的值）。
然后，我们用向量的形式来计算：
$\mathop \delta \nolimits^L$ = $\frac{{\delta {\rm{C}}}}{{\delta \mathop a\nolimits^L}}$ .* $\frac{{\delta {\rm{ \mathop a\nolimits^L}}}}{{\delta \mathop z\nolimits^L }}$ 。（这个.*就是对应元素相乘）。就这里的网络结构来看 $\mathop \delta \nolimits^L$ 算出来就是一个2×1的向量。

公式二（每一层的误差计算）

同样还是从标量的形式来看:
$\mathop \delta \nolimits_j^l$ = $\frac{{\delta {\rm{C}}}}{{\delta \mathop z\nolimits_j^l }}$ （这里可以把l看做2）。则由链式法则可得：
$\mathop \delta \nolimits_j^l$ = $\sum\nolimits_k {\frac{{\delta C}}{{\delta \mathop z\nolimits_k^{l + 1} }}} {\rm{ \times }}\frac{{\delta \mathop z\nolimits_k^{l + 1} }}{{\delta \mathop a\nolimits_j^l }}{\rm{ \times }}\frac{{\delta \mathop a\nolimits_j^l }}{{\delta \mathop z\nolimits_j^l }}$ 。我解释一下为什么要做这个k的累和，首先我们来看这样一张图（就是这里第一层映射到第二层的图）：
在这里插入图片描述
从这个矩阵乘法就可以看出来每一个 $\mathop a\nolimits_j^1$ 对 $\mathop z\nolimits_k^2$ 都有贡献，所以这里需要求和才能算出 $\mathop \delta \nolimits_j^l$ 。
所以：
$\mathop \delta \nolimits_j^l$ = $\sum\nolimits_k{\mathop \delta \nolimits_j^{l+1}×\mathop \theta \nolimits_{kj}^l×\sigma'(\mathop z\nolimits_j^l)}$ 。
然后我们再来看看矩阵形式的表示（如果熟悉矩阵求导的话就可以不用看了），同样还是先看一张图:
在这里插入图片描述
这个图就是刚刚向量方式计算出来的错误的矩阵计算形式，这里可以看出来θ是要转置的，于是我们便得出了 $\mathop \delta \nolimits^l$ 的矩阵表示形式。
$\mathop \delta \nolimits^l$ = $(\mathop \theta \nolimits^l.T * \mathop \delta \nolimits^{l+1}) .* \sigma'(\mathop z\nolimits_j^l)$ 。

公式三（权重θ的梯度）

BP算法的最终目的便是要求出来权重的梯度以便于更新权重，所以接下来我们看看权重的梯度是如何计算的。
同样先是看看在标量之下如何计算：
$\frac{{\delta C}}{{\delta \mathop \theta \nolimits_{jk}^l }}{\rm{ = }}\frac{{\delta {\rm{C}}}}{{\delta \mathop z\nolimits_j^{l + 1} }}{\rm{ \times }}\frac{{\delta \mathop z\nolimits_j^{l + 1} }}{{\delta \mathop \theta \nolimits_{jk}^l }} = \mathop \delta \nolimits_j^{l + 1} {\rm{ \times }}\mathop a\nolimits_k^l$ 。
然后用矩阵进行表示,还是先看一张图，注意：这里右边那个是θ梯度矩阵，不是θ的矩阵（主要是博主比较懒，不想画了）：
在这里插入图片描述
以上就是BP算法的推导，如果熟悉矩阵求导的话就可以跳过那些图片啦，博主主要是想用一种更直观的方式来介绍BP算法。当然还有偏置bias的求导，大家可以自己这样推一推。