记忆网络RNN、LSTM与GRU

最新推荐文章于 2024-06-18 17:34:16 发布

Young_Gy

最新推荐文章于 2024-06-18 17:34:16 发布

阅读量2.3k

点赞数

文章标签： RNN LSTM

本文链接：https://blog.csdn.net/Young_Gy/article/details/71480792

版权

RNN
RNN Variants
LSTM
- 结构
- 梯度消失及梯度爆炸
GRU
- 结构

这里写图片描述

一般的神经网络输入和输出的维度大小都是固定的，针对序列类型（尤其是变长的序列）的输入或输出数据束手无策。RNN通过采用具有记忆的隐含层单元解决了序列数据的训练问题。LSTM、GRU属于RNN的改进，解决了RNN中梯度消失爆炸的问题，属于序列数据训练的常用方案。

RNN

结构

传统的神经网络的输入和输出都是确定的，RNN的输入和输出都是不确定的sequence数据。其结构如下：

这里写图片描述

具体地，RNN有隐含层，隐含层也是记忆层，其状态（权值）会传递到下一个状态中。

h t y t = σ (x t W x h + h t - 1 W h h) = σ (h t W h y)

$\begin{split} h^t &= \sigma(x^tW_{xh} + h^{t-1}W_{hh}) \\ y^t &= \sigma(h^tW_{hy}) \end{split}$

训练

训练步骤如下：

构建损失函数
求损失函数对权值的梯度
采用梯度下降法更新权值参数

关于损失函数，根据需要选择构建即可，下面提供两种常见的损失函数：

C C = 1 2 \sum n = 1 N | | y n - y ̂ n | | 2 = 1 2 \sum n = 1 N - log y n r n

$\begin{split} C &= \frac{1}{2}\sum_{n=1}^N ||y^n-{\hat{y}}^n||^2 \\ C &= \frac{1}{2}\sum_{n=1}^N -\log y_{r^n}^n \end{split}$

关于梯度下降，采用BPTT(Backpropagation through time)算法，该算法的核心是对每一个时间戳，计算该时间戳中权重的梯度，然后更新权重。需要注意的是，不同时间戳同样权重的梯度可能是不一样的，如下图所示都减去，相当于更新同一块内存区域中的权重。

这里写图片描述

应用

多对多：词性标注pos tagging、语音识别、name entity recognition（区分poeple、organizations、places、information extration（区分place of departure、destination、time of departure、time of arrival， other）、机器翻译
多对一：情感分析
一对多：caption generation

这里写图片描述

RNN Variants

RNN的变种大致包含下面3个思路：

增加隐含层的输入参数：例如除了 $h^{t-1}, x^t$ ，还可以包含 $y^{t-1}$ 作为输入。
增加隐含层的深度
双向RNN

这里写图片描述

LSTM

结构

单个时间戳，RNN输入1个x，输出1个y
单个时间戳，LSTM输入4个x，输出1个y

相比RNN，LSTM的输入多了3个x，对应3个gate，这3个gate分别是：

input gate：控制输入
forget gate：控制cell
output gate：控制输出

涉及到的激活函数共5个，其中3个控制gate的（通常用sigmoid函数，模拟gate的开闭状态），1个作用于输入上，一个作用于cell的输出上。

这里写图片描述

LSTM单个时间戳的具体执行如下：

输入：4个输入 $x$ ，1个cell的状态 $c$
输出：1个输出 $a$ ，1个更新的cell状态 $c'$

c' a = g (z) f (z i) + c f (z f) = h (c') f (z o)

$\begin{split} c' &= g(z)f(z_i) + cf(z_f) \\ a &= h(c')f(z_o) \end{split}$

梯度消失及梯度爆炸

首先，要明白RNN中梯度消失与梯度爆炸的原因：在时间戳的更新中，cell的状态不断乘以 $W_{hh}$ 。简单起见，视 $W_{hh}$ 为scalar值 $w$ ，那么 $y=xw^n$ ， $\frac{\partial{y}}{\partial{w}}=nxw^{n-1}$ 。根据 $w$ 的值与1的大小关系，梯度会消失或者爆炸。

接下来，要明白LSTM如何解决RNN中梯度消失与爆炸的问题。

针对梯度消失，RNN中当获取 $c'$ 的梯度后，因为 $c' = cw$ ，为了backward获得 $c$ 的梯度，要将 $c'$ 的梯度乘以 $w$ ；LSTM中存在梯度的快速通道，获取 $c'$ 的梯度后，因为 $c' = g(z)f(z_i)+cf(z_f)$ ，当forget gate打开时， $c' = g(z)f(z_i)+c$ 。 $c'$ 的梯度可以直接传递给 $c$ 。
总结来说，LSTM相比RNN，将 $c,c'$ 的更新关系从乘法变成了加法，因此不用乘以权值系数 $w$ ， $c'$ 的梯度可以直接传递给 $c$ ，解决了梯度消失的问题。

针对梯度爆炸，即使将 $c,c'$ 的关系由乘法变成了加法，仍然解决不了梯度爆炸。原因便是梯度的路径不止一条，如下图所示，红色的块仍然可能造成梯度爆炸。LSTM解决这个问题的方法是clip，也就是设置梯度最大值，超过最大值的按最大值计。

这里写图片描述

GRU

结构

GRU相比LSTM的3个gate，只用了两个gate：

update gate： $z_t$
reset gate： $r_t$

这里写图片描述

Young_Gy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
记忆网络RNN、LSTM与GRU

一般的神经网络输入和输出的维度大小都是固定的，针对序列类型（尤其是变长的序列）的输入或输出数据束手无策。RNN通过采用具有记忆的隐含层单元解决了序列数据的训练问题。LSTM、GRU属于RNN的改进，解决了RNN中梯度消失爆炸的问题，属于序列数据训练的常用方案。
复制链接

扫一扫