LSTM详解

最新推荐文章于 2024-06-26 21:37:16 发布

Mr_Brooks

最新推荐文章于 2024-06-26 21:37:16 发布

阅读量6.9k

点赞数 5

分类专栏：知识积累文章标签： Keras关于LSTM的units参数

知识积累专栏收录该内容

98 篇文章 3 订阅

订阅专栏

LSTM层

keras.layers.recurrent.LSTM(units, activation='tanh', recurrent_activation='hard_sigmoid', use_bias=True, kernel_initializer='glorot_uniform', recurrent_initializer='orthogonal', bias_initializer='zeros', unit_forget_bias=True, kernel_regularizer=None, recurrent_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, recurrent_constraint=None, bias_constraint=None, dropout=0.0, recurrent_dropout=0.0)

核心参数
units：输出维度
input_dim：输入维度，当使用该层为模型首层时，应指定该值（或等价的指定input_shape)
return_sequences：布尔值，默认False，控制返回类型。若为True则返回整个序列，否则仅返回输出序列的最后一个输出
input_length：当输入序列的长度固定时，该参数为输入序列的长度。当需要在该层后连接Flatten层，然后又要连接Dense层时，需要指定该参数，否则全连接的输出无法计算出来。

输入shape
形如（samples，timesteps，input_dim）的3D张量

输出shape

如果return_sequences=True：返回形如（samples，timesteps，output_dim）的3D张量否则，返回形如（samples，output_dim）的2D张量

1.输入和输出的类型
相对之前的tensor，这里多了个参数timesteps，其表示啥意思？举个栗子，假如我们输入有100个句子，每个句子都由5个单词组成，而每个单词用64维的词向量表示。那么samples=100，timesteps=5，input_dim=64，你可以简单地理解timesteps就是输入序列的长度input_length(视情而定)

2.units
假如units=128，就一个单词而言，你可以把LSTM内部简化看成Y=X1×64W64×128 ,X为上面提及的词向量比如64维,W中的128就是units，也就是说通过LSTM，把词的维度由64转变成了128

3.return_sequences
我们可以把很多LSTM层串在一起，但是最后一个LSTM层return_sequences通常为false，具体看下面的栗子。

栗子
Sentence01: you are really a genius

model = Sequential()
model.add(LSTM(128, input_dim=64, input_length=5, return_sequences=True))
model.add(LSTM(256, return_sequences=False))

这里写图片描述

(1)我们把输入的单词，转换为维度64的词向量，小矩形的数目即单词的个数input_length
(2)通过第一个LSTM中的Y=XW，这里输入为维度64，输出为维度128，而return_sequences=True，我们可以获得5个128维的词向量V1’..V5’
(3)通过第二个LSTM，此时输入为V1’..V5’都为128维，经转换后得到V1”..V5”为256维，最后因为return_sequences=False，所以只输出了最后一个红色的词向量

Keras关于LSTM的units参数：

这个问题也困扰了我很久，后来终于明白了，很多资料都没有在这个地方做详细的解释，那就是 LSTM 的 cell 里面的 num_units 该怎么理解，其实也是很简单，看看下图：

可以看到中间的 cell 里面有四个黄色小框，你如果理解了那个代表的含义一切就明白了，每一个小黄框代表一个前馈网络层，对，就是经典的神经网络的结构，num_units就是这个层的隐藏神经元个数，就这么简单。其中1、2、4的激活函数是 sigmoid，第三个的激活函数是 tanh。

另外几个需要注意的地方：

1、 cell 的状态是一个向量，是有多个值的。。。一开始没有理解这点的时候怎么都想不明白

2、上一次的状态 h(t-1)是怎么和下一次的输入 x(t) 结合（concat）起来的，这也是很多资料没有明白讲的地方，也很简单，concat，直白的说就是把二者直接拼起来，比如 x是28位的向量，h(t-1)是128位的，那么拼起来就是156位的向量，就是这么简单。。

3、 cell 的权重是共享的，这是什么意思呢？这是指这张图片上有三个绿色的大框，代表三个 cell 对吧，但是实际上，它只是代表了一个 cell 在不同时序时候的状态，所有的数据只会通过一个 cell，然后不断更新它的权重。

4、那么一层的 LSTM 的参数有多少个？根据第 3 点的说明，我们知道参数的数量是由 cell 的数量决定的，这里只有一个 cell，所以参数的数量就是这个 cell 里面用到的参数个数。假设 num_units 是128，输入是28位的，那么根据上面的第 2 点，可以得到，四个小黄框的参数一共有（128+28）*（128*4），也就是156 * 512，可以看看 TensorFlow 的最简单的 LSTM 的案例，中间层的参数就是这样，不过还要加上输出的时候的激活函数的参数，假设是10个类的话，就是128*10的 W 参数和10个bias 参数

5、cell 最上面的一条线的状态即 s(t) 代表了长时记忆，而下面的 h(t)则代表了工作记忆或短时记忆

出处参考