cs224n 笔记5 反向传播和项目建议

最新推荐文章于 2022-05-28 20:21:05 发布

刀口木

最新推荐文章于 2022-05-28 20:21:05 发布

阅读量335

点赞数

本文链接：https://blog.csdn.net/li_dongchao/article/details/84501841

版权

前言

这一节主要是讲了四种理解反向传播的角度或者说方法，个人认为最好还是在公式推导上理解，这样更踏实。当然，其他的方法也是不错的思路，本质上还是一样的。

文章目录

四种解释

多层神经网络

从上一节的单层神经网络扩展到多层神经网络
在这里插入图片描述
由上一节的推导可以知道，对于单层神经网络的梯度下降有
$\begin{aligned} \frac{\partial s}{\partial W_{ij}}=\delta_i x_j \end{aligned}$
所以对于两层的求导：
$\begin{aligned} \frac{\partial s}{\partial W_{ij}^{(2)}}=\delta_i^{(3)} a_j^{(2)} \end{aligned}$
其中 $\delta_i^{(3)}=U_if'(z_i^{(3)})$
对应上一节的矩阵大小：
$U ： 8 * 1$
$f : 8 * 1$
$\delta:8*1$
矩阵形式：
$\frac{\partial s}{\partial W^{(2)}}=\delta^{(3)} a^{(2)^T}$
同时， $\frac{\partial s}{\partial W^{(1)}}=\delta^{(2)} a^{(1)^T}$
其中， $\delta^{(2)}=(W^{(2)^T}\delta^{(3)})of'(z^{(2)})$ o代表对应相乘
推广到一般形式：
$\frac{\partial s}{\partial W^{(l)}}=\delta^{(l+1)} a^{(l)^T}$
$\delta^{(l)}=(W^{(l)^T}\delta^{(l+1)})of'(z^{(l)})$

电路解释

$f (x, y, z) = (x + y) z$ 可以用下图表示，其中 $q = x + y 、 f = q z$
在这里插入图片描述
所以f分别对自身，对z、q求导得到3和-4，进而对x、y求导得到-4，-4。
比如对x的求导：

这种思想就是反向传播的过程。

流程图

利用有向无环流程图理解
在这里插入图片描述
多条路径：

更复杂的流程图：

神经网络看做流程图：

误差信号

假设最后一层对 $z^{(3)}$ 的误差是 $\delta^{(3)}$
在这里插入图片描述
所以对 $W^{(2)}$ 的导数是 $\delta^{(3)}a^{(2)^T}$
通过线性加法器。可以得到对 $a^{(2)}$ 的导数是 $W^{(2)^T}\delta^{(3)}$

经过激活函数，对 $z^{(2)}$ 的导数是

最后经过线性乘法器，得到对 $a^{(1)}$ 的导数

于是对 $W^{(1)}$ 的导数是 $δ^{(2)}a^{(1)^T}$ 。