【王树森】RNN模型与NLP应用(4/9)：LSTM模型（个人向笔记）

最新推荐文章于 2024-08-30 23:48:47 发布

好心的小明

最新推荐文章于 2024-08-30 23:48:47 发布

阅读量432

点赞数 8

文章标签： lstm rnn 自然语言处理

本文链接：https://blog.csdn.net/hxdxiaoming/article/details/141700394

版权

前言

LSTM是对Simple RNN的改进，可以避免梯度消失的问题，能够有更长的记忆力。

在这里插入图片描述

过去的信息 $C_{t-1}$ 通过一个传输带直接输送到下一个状态 $C_t$ ，不会发生太大的变化，由此来避免梯度消失的问题。
在这里插入图片描述

上一次的特征向量 $h_{t-1}$ 和本次输入的向量 $x_t$ 经过与 $W_f$ 的变换后输入sigmoid函数进行激活（输出在0到1）得到 $f_t$ ， $f_t$ 即为遗忘门的向量。其中 $W_t$ 是需要被训练的参数
遗忘门向量再与上一个 $c_{t-1}$ 进行点乘，其中遗忘门向量为0表示彻底遗忘，遗忘门向量为1则为完全保留

$i_t：$ $i_t$ 的计算方法和 $f_t$ 一样，但是参数矩阵 $W_i$ 不一样，这个参数矩阵也是需要被训练的， $i_t$ 决定了下面的 $\tilde{C_t}$ 有多少会被作用到传送带
$\tilde{c_t}：$ 把上面的激活函数换成了 tanh，输出范围变为 $[- 1, 1]$ ，其中 $W_c$ 是需要被训练的矩阵， $\tilde{c_t}$ 是在和 $i_t$ 点乘后加到传送带的向量

将上面算出的三个向量都用来更新 $c_t$
在这里插入图片描述

将 $c_t$ 丢进双曲正切函数进行激活，将元素的数值压到 $[- 1, 1]$ ，将激活过的数值与 $o_t$ 点乘得到 $h_t$
这里有两份 $h_t$ ，一份传到了下一步，另一份作为输出
在这里插入图片描述

一共有4个参数据矩阵，其中参数矩阵的计算方法和上节课 Simple RNN 一样。

代码与上节课的 Simple RNN 几乎完全一致，只需要把 RNN 的模型改成 LSTM即可：
在这里插入图片描述
结构和参数量如下：

模型的效果：比 Simple RNN 有提升

使用Dropout 并不能提升准确率，为什么？

关注