NLP之简单笔记：LSTM

最新推荐文章于 2024-07-29 00:34:26 发布

lokvke

最新推荐文章于 2024-07-29 00:34:26 发布

阅读量598

点赞数

文章标签：深度学习 nlp lstm

本文链接：https://blog.csdn.net/weixin_43508499/article/details/107807183

版权

一. LSTM简介

LSTM：即Long Short-tem Memory，长短期记忆神经网络，1997年就被提出来了。
传统RNN的缺点：
1. 每个时刻都会更新掉上一时刻memory的信息；LSTM通过增加三个门，来选择保存更多时刻的信息。
2.会出现梯度爆炸或者消失的情况；LSTM可以解决梯度消失的情况。（严格上来讲，只能缓解梯度消失，而不能完全解决）
LSTM结构如下图所示，参考https://apaszke.github.io/lstm-explained.html

二. LSTM的计算过程

现在有初始状态的输入x_t， h_t-1 ，c_t-1参数说明：

x就是你的输入；
h表示hidden layer的神经元个数，就是你在定义LSTM结构时设置的参数；
c表示LSTM模型中记忆单元存储的状态。

LSTM的计算过程：

step1: 将x_t和h_t-1并起来，得到X；
step2：X分别和四个权值矩阵相乘，得到z, z_i ,z_f , z_o ；

     z = tanh(WX),
     z_i = sigmoid(W_i X)
     z_f = sigmoid(W_f X)
     z_o = sigmoid(W_o X)

step3：更新记忆单元状态，求c_t
c_t = z⋅z_i + c_t-1 ⋅ z_f

step4: 更新h_t
h_t = z_o ⋅ tanh(c_t)

step5: 输出y_t
y_t = f(h_t)
（可以根据自己的需要选择f，例如选用softmax，sigmoid或者tanh函数等。）

三. LSTM的参数计算

从上面可以看到，

LSTM有4个输入，1个输出;
输入的维度是X的维度，不是x_t的维度，X_dim = x_dim + h _dim；
就是4倍的输入乘以输出 + 偏置项；
因此，LSTM的参数计算为：p = 4*[ (x_dim + h_dim)*h_dim + h_dim ]

下面通过keras的示例验证一下。

"""
	基于 LSTM 的序列分类
"""
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.layers import Embedding
from keras.layers import LSTM

max_features = 1024

model = Sequential()
model.add(Embedding(max_features, output_dim=256))
model.add(LSTM(128))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])
model.summary()
#model.fit(x_train, y_train, batch_size=16, epochs=10)
#score = model.evaluate(x_test, y_test, batch_size=16)

模型的结构和参数如下图所示：
在这里插入图片描述
可以看到LSTM这层的参数个数为197120。

输入x_dim = 256, h_dim = 128, 套用上述公式计算：4*((256+128)*128+128) = 197120

验证正确。

四. LSTM为什么能解决梯度消失的问题

4.1 RNN出现梯度消失或者爆炸的原因

RNN的结构如下图所示：
（图来自https://zhuanlan.zhihu.com/p/28687529）
在这里插入图片描述

从上图可以看到，隐藏层的状态S_t+1是前一个时刻S_t和Ws的函数。
现在假设损失为L，则反向求导L对Ws的导数时，会出现S_t+1对S_t求导的连乘，S_t+1对S_t求导等于Ws，即会出现很多个Ws连乘的情况。（假设激活函数就是1）
如果t足够大，则当Ws小于1时，Ws * Ws * Ws…*Ws趋近于0，导致梯度消失；当Ws大于1时，Ws * Ws * Ws…*Ws会得到很大的值，导致梯度爆炸。

总结：RNN中的hidden layer的weight随着t被反复的使用。

4.2 LSTM缓解梯度消失的原因

LSTM中，memory存于cell中，类比RNN，求c_t对c_t-1的导数，有第二节可知，
     X = [h_t-1, x_t]
     z = tanh(WX),
     z_i = sigmoid(W_i X)
     z_f = sigmoid(W_f X)
     z_o = sigmoid(W_o X)
     c_t = z⋅z_i + c_t-1 ⋅ z_f
因为有：
     h_t = z_o ⋅ tanh(c_t)
所以：
     h_t-1 = z_o ⋅ tanh(c_t-1)
可以得到的信息：

c_t是z, z_i, z_f, c_t-1的函数
z, z_i, z_f是h_t-1的函数
h_t-1是c_t-1的函数

因此，c_t对c_t-1的求导除了要计算ct = z⋅zi + ct-1 ⋅ zf这一项之外，还受到z, z_i, z_f这几项的影响，所以c_t对c_t-1的求导可能是大于1，也可能在[0,1]之间。
假如求得的gradient开始趋于0，我们可以通过设置z, z_i, z_f的值，让c_t对c_t-1的导数往1靠拢，从而解决梯度消失的问题。
那么，如何设置z, z_i, z_f的值呢？这几个参数是网络学习的呀！！！通过学习，决定什么时候让梯度消失，什么时候该保留。这就是LSTM多出这几个门厉害的地方了。