RNN

最新推荐文章于 2022-12-19 00:41:25 发布

u010789558

最新推荐文章于 2022-12-19 00:41:25 发布

阅读量574

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u010789558/article/details/54017451

版权

深度学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一个小的例子mini_char_rnn
我们主要看代码中的backward部分：

dh = np.dot(Why.T, dy) + dhnext
dhraw = (1 - hs[t] * hs[t]) * dh
dhnext = np.dot(Whh.T, dhraw)

首先定义loss function：
E = $\sum_{t=0}^n softmax-cross-ntropy-loss(y_t, labels_t)$
这里n是batchsize，y为输出，损失函数为softmax交叉熵，RNN的BP和传统的BP的不同在于 $h_t$ 是和 $h_{t-1}$ 相关的，所以我们关心的是 $\frac{\partial{y}}{\partial{h}}$ 而 $\frac{\partial{E}}{\partial{y}}$ 和传统的BP并无两样,单隐层RNN的forward如下：
$h_t = f(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$
$y_t = h_t W_{hy}+b_y$
所以在backward中
$\frac{\partial{E}}{\partial{h_t}} = \frac{\partial{E}}{\partial{y_t}}\frac{\partial{y_t}}{\partial{h_t}}+\frac{\partial{E}}{\partial{y_{t-1}}}\frac{\partial{y_{t-1}}}{\partial{h_{t-1}}}$
后面一项正是代码中的dhnext，我们可以把 $\sum_{t=0}^n y_t$ 展开来看：
$y_t = h_tW_{hy} + b_y = f(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$
$y_{t-1} = h_{t-1}W_{hy} + b_y = f(W_{xh}x_{t-1} + W_{hh}h_{t-2} + b_h)$
$y_{t-2} = h_{t-2}W_{hy} + b_y = f(W_{xh}x_{t-2} + W_{hh}h_{t-3} + b_h)$
$y_{t-3} = h_{t-3}W_{hy} + b_y = f(W_{xh}x_{t-3} + W_{hh}h_{t-4} + b_h)$
$y_{t-4} = h_{t-4}W_{hy} + b_y = f(W_{xh}x_{t-4} + W_{hh}h_{t-5} + b_h)$
……
我们可以看到
$h_t$ 出现在 $y_t$ 中(因为t已经是最后一项了)
$h_{t-1}$ 出现在 $y_{t-1}$ 和 $y_t$ 中
$h_{t-2}$ 出现在 $y_{t-2}$ 和 $y_{t-1}$ 中
$h_{t-3}$ 出现在 $y_{t-3}$ 和 $y_{t-2}$ 中
正是因为RNN在时间轴上是关联的，所以前一时刻的输出和当前时刻的输入是相关联的，这也反映到了RNN的BP中，就是当前时刻的梯度是和前一时刻的梯度相关的

u010789558

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN

一个小的例子mini_char_rnn 我们主要看代码中的backward部分：dh = np.dot(Why.T, dy) + dhnextdhraw = (1 - hs[t] * hs[t]) * dhdhnext = np.dot(Whh.T, dhraw)首先定义loss function： E = ∑nt=0softmax−cross−ntropy−loss(yt,labelst)
复制链接

扫一扫