[读书笔记]How the backpropagation algorithm works（未完待续）

最新推荐文章于 2024-02-22 09:30:00 发布

vincent2610

最新推荐文章于 2024-02-22 09:30:00 发布

阅读量485

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/vincent2610/article/details/75175146

版权

机器学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

前一段时间看了 Michael Nielsen写的文章，我觉得是目前看到讲神经网络后向传播算法讲的最好的一篇文章了。下面提其精要：

符号
$w^l_{jk}$ : the weight for the connection from the $k^{th}$ neuron in the $(l-1)^{th}$ layer to the $j^{th}$ neuron in the $l^{th}$ layer

$b^l_j$ : the bias of the $j^{th}$ neuron in the $l^{th}$ layer

$z^l_j$ : the weighted input

$a^l_j$ : the activation of the $j^{th}$ neuron in the $l^{th}$ layer

各符号的例子如下：
公式

$z$ 和 $a$ 的计算公式如下：

$z l j = \sum k w l j k a l - 1 k + b l j$ $z^l_j = \sum_k w^l_{jk} a^{l-1}_k+b^l_j$
$a l j = σ (\sum k w l j k a l - 1 k + b l j)$ $a^{l}_j = \sigma\left( \sum_k w^{l}_{jk} a^{l-1}_k + b^l_j \right)$

写成矩阵形式：

$z l \equiv w l a l - 1 + b l$ $z^l \equiv w^l a^{l-1}+b^l$
$a l = σ (w l a l - 1 + b l)$ $a^{l} = \sigma(w^l a^{l-1}+b^l)$

损失函数：

$C = 1 2 n \sum x ∥ y (x) - a L (x) ∥ 2$ $C = \frac{1}{2n} \sum_x \|y(x)-a^L(x)\|^2$
后向传播算法intuition
对于 $j^{th}$ neuron in layer $l$ ，如果我们让 $z^l_j$ 变化 $\Delta z^l_j$ ，那么该神经元的输出由 $\sigma(z^l_j)$ 变成了 $\sigma(z^l_j+\Delta z^l_j)$ ，并且损失函数值变化了 $\frac{\partial C}{\partial z^l_j} \Delta z^l_j$ 。
所以我们可以让 $\Delta z^l_j$ 和 $\frac{\partial C}{\partial z^l_j}$ 符号相反，达到让损失函数值下降。一直到 $\frac{\partial C}{\partial z^l_j}$ 无限接近0，那么此时无论怎么变化 $z^l_j$ 都难以让损失函数值下降了，此时我们宣布：该神经元达到最优状态了.
基于这个观察，我们将neuron $j$ in layer $l$ 的误差 $\delta^l_j$ 定义为：

$δ l j \equiv \partial C \partial z l j .$ $\delta^l_j \equiv \frac{\partial C}{\partial z^l_j}.$
后向传播算法的四大公式

详细解释：
BP1：

$δ L j = \partial C \partial a L j σ' (z L j)$ $\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma'(z^L_j)$
$δ L = \nabla a C ⊙ σ' (z L)$ $\delta^L = \nabla_a C \odot \sigma'(z^L)$
$δ L = (a L - y) ⊙ σ' (z L)$ $\delta^L = (a^L-y) \odot \sigma'(z^L)$
BP2:
$δ l = ((w l + 1) T δ l + 1) ⊙ σ' (z l)$ $\delta^l = ((w^{l+1})^T \delta^{l+1}) \odot \sigma'(z^l)$
BP3:
$\partial C \partial b l j = δ l j$ $\frac{\partial C}{\partial b^l_j} = \delta^l_j$
$\partial C \partial b = δ$ $\frac{\partial C}{\partial b} = \delta$
BP4：
$\partial C \partial w l j k = a l - 1 k δ l j$ $\frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \delta^l_j$
$\partial C \partial w = a i n δ o u t$ $\frac{\partial C}{\partial w} = a_{\rm in} \delta_{\rm out}$

vincent2610

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[读书笔记]How the backpropagation algorithm works（未完待续）

前一段时间看了 Michael Nielsen写的文章，我觉得是目前看到讲神经网络后向传播算法讲的最好的一篇文章了。下面提其精要：符号 wljkw^l_{jk}: the weight for the connection from the kthk^{th} neuron in the (l−1)th(l-1)^{th} layer to the jthj^{th} neuron in the
复制链接

扫一扫