Recurrent Neural Network（循环神经网络）

最新推荐文章于 2024-07-31 21:04:26 发布

keep--learning

最新推荐文章于 2024-07-31 21:04:26 发布

阅读量1.2k

点赞数 1

分类专栏：李宏毅机器学习文章标签： rnn 深度学习机器学习

本文链接：https://blog.csdn.net/qq_51426525/article/details/130881223

版权

李宏毅机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Slot Filling with RNN

Elman Network & Jordan Network

Bidirectional RNN

LSTM(Long Short-term Memory)

Example

Learning Target

LSTM

GRU (Gated Recurrent Unit)

Sequence to Sequence Learning

Seq2Seq for Syntatic Parsing

Seq2Seq for Auto-encoder Text

Seq2Seq for Auto-encoder Speech

Attention-based Model

循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）。

循环神经网络具有记忆性、参数共享并且图灵完备（Turing completeness），因此在对序列的非线性特征进行学习时具有一定优势。

Slot Filling with RNN

第一次输入时，通过隐藏层输出，同时输入会被存放在memory中；当第二次输入时，会经过隐藏层和memory运算后输出，同时memory和输入进行运算并更新memory中的值，以此类推。

即使输入是相同的地点，可以根据前文的“leave”或“arrive”得到不一样的输出。

Elman Network & Jordan Network

Elman Network：将hidden layer的输出保存在memory里。

Jordan Network：将整个neural network的输出保存在memory里。

Bidirectional RNN

RNN 还可以是双向的，可以同时训练一对正向和反向的RNN，把它们对应的hidden layer 拿出来，都接给一个output layer。使用双向RNN的好处是，在产生输出的时候，它能够看到比较广的范围。

LSTM(Long Short-term Memory)

LSTM有三个gate：input gate、output gate和forget gate。整个LSTM可以看做是4个input，1个output：

Input: 想要被存到memory cell里的值以及三个gate的控制信号。

Output：想要从memory cell中被读取的值。

Example

当x2=1,把x1的值写入memory；当x2=-1,将memory的数值清零；当x3=1,将memory的值输出。

下图是单个LSTM的运算情景

下图是同一个LSTM在两个相邻时间点上的情况

Learning Target

RNN的损失函数就是输出yi与对label之间的交叉熵，对于RNN的训练也是采用梯度下降的方法，为了计算方便，采取了Backpropagation through time，简称BPTT算法。但是，RNN训练并不容易。因为RNN的Error Surface在某些地方非常平坦，在某些地方又非常的陡峭。这就会导致loss有时会剧烈变化。想要解决这个问题，可以采用Clipping方法，当gradient即将大于某个threshold的时候，就让它停止增长。