神经网络与深度学习笔记——第2章反向传播算法

最新推荐文章于 2022-04-24 23:03:24 发布

zhzhx0318

最新推荐文章于 2022-04-24 23:03:24 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/zhzhx1204/article/details/76168056

版权

第2章反向传播算法

为什么反向传播算法这么流行，这么多人在使用？
因为反向传播算法比传统的方法更快。

反向传播算法的核心是一个对代价函数关于任何权重（或者偏置）的偏导数的表达式。这个表达式告诉我们，在改变权重和偏置时，代价函数变化的快慢。
反向传播不仅仅是一种学习的快速算法。实际上它让我们细致领悟如何通过改变权重和偏置来改变整个网络的行为。因此，这也是学习反向传播细节的重要价值所在。

热身：神经网络中使用矩阵快速计算输出的方法

alj=σ(∑kwljkal−1k+blj) $a_j^l=\sigma(\sum_k w_{jk}^{l}a_k^{l-1}+b_j^l)$

关于代价函数的两个假设

反向传播的目标是计算代价函数关于权重和偏置的偏导数。

反向传播的四个方程

δL=▽aC⊙σ′(zL) $\delta^L=\bigtriangledown_aC\odot\sigma'(z^L)$

δl=((wl+1)Tδl+1)⊙σ′(zl) $\delta^l=((w^{l+1})^T\delta^{l+1})\odot\sigma'(z^l)$

∂C∂blj=δlj $\frac{\partial C}{\partial b_j^l}=\delta_j^l$

∂C∂wljk=al−1kδlj $\frac{\partial C}{\partial w_{jk}^l}=a_k^{l-1}\delta_j^l$
如果输出神经元处于或者低于激活值，或者高于激活值时，最终层的权重学习缓慢。这样的情形，我们常常称神经元已经饱和了，并且，权重学习也会终止（或者学习非常缓慢）。类似的结果对于输出神经元的偏置也是成立的。
四个基本方程也其实对任何的激活函数都是成立的。所以，我们可以使用这些方程来设计有特定学习属性的激活函数。我们准备选择一个(非 S 型)激活函数

σ $\sigma$ 使得

σ′ $\sigma'$ 总是正数,并且不会趋近 0。这会防止在原始的 S 型神经元饱和时学习速度下降的情况出现。

四个基本方程的证明

第一个方程的证明：

δLj=∂C∂zLj=∑k∂C∂aLk∂aLk∂zLj=∂C∂aLj∂aLj∂zLj=∂C∂aLjσ′(zLj) $\delta_j^L=\frac{\partial C}{\partial z_j^L}=\sum_k\frac{\partial C}{\partial a_k^L}\frac{\partial a_k^L}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L}\sigma'(z_j^L)$
第二个方程式的证明：
以下一层误差

δl+1 $\delta^{l+1}$ 的形式表示误差

δl $\delta^l$ 。

δlj=∂C∂zlj=∑k∂C∂zl+1k∂zl+1k∂zlj=∑k∂zl+1k∂zl+1kδl+1k $\delta_j^l=\frac{\partial C}{\partial z_j^l}=\sum_k\frac{\partial C}{\partial z_k^{l+1}}\frac{\partial z_k^{l+1}}{\partial z_j^l}=\sum_k\frac{\partial z_k^{l+1}}{\partial z_k^{l+1}}\delta_k^{l+1}$
由于：

zl+1k=∑jwl+1kjalj+bl+1k=∑jwl+1kjσ(zlj)+bl+1k $z_k^{l+1}=\sum_jw_{kj}^{l+1}a_j^l+b_k^{l+1}=\sum_jw_{kj}^{l+1}\sigma(z_j^l)+b_k^{l+1}$

∂zl+1k∂zlj=wl+1kjσ′(zlj) $\frac{\partial z_k^{l+1}}{\partial z_j^l}=w_{kj}^{l+1}\sigma'(z_j^l)$
讲上述两个式子代入，得到

δlj=∑kwl+1kjδl+1kσ′(zlj) $\delta_j^l=\sum_kw_{kj}^{l+1}\delta_k^{l+1}\sigma'(z_j^l)$
第三个方程式的证明：

∂C∂blj=∂C∂zlj∂zlj∂blj=δlj∂(∑kwlkjal−1j+blj)∂blj=δlj $\frac{\partial C}{\partial b_j^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l}=\delta_j^l\frac{\partial (\sum_kw_{kj}^{l}a_j^{l-1}+b_j^{l})}{\partial b_j^l}=\delta_j^l$
第四个方程式的证明：

∂C∂wlkj=∂C∂zlj∂zlj∂wlkj=δlj∂(∑kwlkjal−1j+blj)∂wlkj=al−1kδlj $\frac{\partial C}{\partial w_{kj}^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial w_{kj}^l}=\delta_j^l\frac{\partial (\sum_kw_{kj}^{l}a_j^{l-1}+b_j^{l})}{\partial w_{kj}^l}=a_k^{l-1}\delta_j^l$

随机梯度下降的一个小的改进

在一个小批量数据上的反向传播的全矩阵方法：
一般随机梯度下降是对一个小批量数据中的所有样本进行梯度计算，所以我们可以更改反向传播算法使得它同时对一个小批量数据中的所有样本进行梯度计算。意思就是我们可以用一个矩阵表示一个小批量数据来进行计算，而不是单个的输入向量。

反向传播算法为什么快

求解偏导数有两种方法，一种是直接使用微积分来计算偏导数（数值解），另一种就是反向传播算法。
使用微积分计算偏导数运行起来非常缓慢。如果网络中有一百万个权重，对每个不同的权重，我们需要计算 $C(w+\epsilon e_j)$ 来计算 $\frac{\partial C}{\partial w_j}$ 。所以，为了计算梯度，我们需要计算代价函数一百万次，需要一百万次前向传播（对每个样本）。我们同样给需要计算 $C(w)$ ，总共是一次网络传播需要一百万零一次。
反向传播可以同时计算所有的偏导数，仅仅使用一次前向传播，加上一次后向传播。所以，即使反向传播看起来比较复杂，但实际上更快。