RNN学习笔记（六）-GRU，LSTM 代码实现

最新推荐文章于 2024-07-25 10:37:06 发布

置顶

rtygbwwwerr

最新推荐文章于 2024-07-25 10:37:06 发布

阅读量1.9w

点赞数 7

分类专栏：机器学习文章标签：机器学习 GRU 神经网络 RNN

本文链接：https://blog.csdn.net/rtygbwwwerr/article/details/51056140

版权

本文深入探讨GRU和LSTM的代码实现，以2-gram语言模型为例，介绍了网络结构，包括GRU和LSTM的输入层、隐层结构，并通过详细推导解释了梯度计算过程，特别关注了bptt的部分。

摘要由CSDN通过智能技术生成

RNN学习笔记（六）-GRU，LSTM 代码实现

在这篇文章里，我们将讨论GRU/LSTM的代码实现。在这里，我们仍然沿用RNN学习笔记（五）-RNN 代码实现里的例子，使用GRU/LSTM网络建立一个2-gram的语言模型。
项目源码：https://github.com/rtygbwwwerr/RNN
参考项目：https://github.com/dennybritz/rnn-tutorial-gru-lstm

1.网络结构

为了解决当词典中的words数量很大时，输入向量过长的问题，我们在输入层和隐层之间引入了Embedding Layer,通过该层，输入的one-hot将被转换为word的Embedding vector。

1.1 GRU网络

这里写图片描述

1.2 LSTM网络

略。

2.代码实现

这里我们重点讨论bptt部分(*:“ $\color{red}\odot$ ”表示elemwise乘法运算)。对于GRU网络来说，有

z r h s t z (o) (t) o t = σ (x t U z + s t - 1 W z) = σ (x t U r + s t - 1 W r) = t a n h (x t U h + (s t - 1 ⊙ r) W h) = (1 - z) ⊙ h + z ⊙ s t - 1 = s t V + c = s o f t m a x (z (o) (t))

$\begin{aligned} z &=\sigma(x_tU^z + s_{t-1} W^z) \\ r &=\sigma(x_t U^r +s_{t-1} W^r) \\ h &= tanh(x_t U^h + (s_{t-1} \odot r) W^h) \\ s_t &= (1 - z) \odot h + z \odot s_{t-1} \\ z^{(o)}(t) &= s_tV+c \\ o_t &= softmax(z^{(o)}(t)) \\ \end{aligned}$

$softmax(x)'=softmax(x)[1-softmax(x)]$
输出层节点的输入值 $z^{(o)}_k(t)$ 导数如下：
$\delta_k^{(o)}(t)=\frac{\partial L_t}{\partial z^{(o)}_k(t)}$
$=o_k(t)-1$
写成向量形式为：
$\mathbf{ \delta}^{(o)}(t)=\mathbf{o}(t)-\mathbf{1}$
$\frac{\partial L_t}{\partial V}=\delta_k^{(o)}(t)\frac{\partial z^{(o)}_k(t)}{\partial V}=[o_k(t)-1]\odot s_t$
可以看到，这一层的导数与常规RNN是一致的。

从隐层开始，导数将有所不同，我们先来看下单个GRU网络节点结构：
这里写图片描述

这里，先对符号做一下约定：
$i^z(t)=x_tU^z + s(t-1) W^z$ :t时刻update gate 对应的输入
$i^r(t)=x_t U^r +s(t-1) W^r$ :t时刻rest gate 对应的输入
$i^h(t)=x_t U^h + (s(t-1) \odot r(t)) W^h$ :t时刻隐单元对应的输入
$i^o(t)=(1 - z(t)) \odot h(t) + z(t) \odot s(t-1)$ :t时刻output gate对应的输入
f(io(t))=io