Keras_LSTM

最近做一个关于用命名实体识别NER的项目,想用循环神经网络试一下,具有时间特性的数据预测当然非LSTM莫属了啦,但是感觉自己对LSTM的输入和输出不是很明白,就学习顺便整理一下吧。

Cell

说到LSTM当然先来一张cell的图了:
在这里插入图片描述
图中看起来是三个cell,其实是一个cell在不同时刻上的拼接,也就是说其实是一个cell在不同时刻的状态。我们就以中间那个cell为例进行说明吧。
其中,四个黄色的小矩形就是普通神经网络的隐藏层结构,其中第一、二和四的激活函数是sigmoid,第三个的激活函数是tanh。t时刻的输入X和t-1时刻的输出h(t-1)进行拼接,然后输入cell中,其实可以这样理解,我们的输入X(t)分别feed进了四个小黄矩形中,每个小黄矩形中进行的运算和正常的神经网络的计算一样(矩阵乘法),有关记忆的部分完全由各种门结构来控制(就是0和1),同时在输入时不仅仅有原始的数据集,同时还加入了上一个数据的输出结果,也就是h(t-1),那么讲来LSTM和正常的神经网络类似,只是在输入和输出上加入了一点东西。cell中可以大体分为两条横线,上面的横线用来控制长时记忆,下面的横线用来控制短时记忆。关于LSTM我通过参考画了一张图,如下:
在这里插入图片描述

输入和输出

1.输入

下面我们就来说说输入问题,在Keras中,LSTM的输入shape=(samples, time_steps, input_dim),其中samples表示样本数量,time_steps表示时间步长,input_dim表示每一个时间步上的维度。我举一个例子吧,现在有一个数据集有四个属性(A,B, C, D),我们希望的预测标签式D,假设这里的样本数量为N。如果时间步长为1,那么此时的输入shape=(N, 1, 4),具体的数据是这样的[A(t-1), B(t-1), C(t-1), D(t-1)](此处表示一个数据样本),样本标签为[D(t)];如果时间步长为2,那么此时的输入shape=(N, 2, 4),具体的数据是[[A(t-2), B(t-2), C(t-2), D(t-2)], [A(t-1), B(t-1), C(t-1), D(t-1)]](此处仍表示一个样本数据)。

2.输出

关于Keras中LSTM的输出问题,在搭建网络时有两个参数,一个是output_dim表示输出的维度,这个参数其实就是确定了四个小黄矩形中权重矩阵的大小。另一个可选参数return_sequence,这个参数表示LSTM返回的时一个时间序列还是最后一个,也就是说当return_sequence=True时返回的是(samples, time_steps, output_dim)的3D张量,如果return_sequence=Flase时返回的是(samples, output_dim)的2D张量。比如输入shape=(N, 2, 8),同时output_dim=32,当return_sequence=True时返回(N, 2, 32);当return_sequence=False时返回(N, 32),这里表示的时输出序列的最后一个输出。

输入是一个三维向量。samples即为数据的条数。难以理解的是timesteps 和input_dim. Input_dim是数据的表示形式的维度,timestep则为总的时间步数。例如这样一个数据,总共100条句子,每个句子20个词,每个词都由一个80维的向量表示。在RNN中,每一个timestep的输入是一个词(当然这不一定,你也可以调成两个词或者其他),从第一张RNN的图来看,t0时刻是第一个时间步,x0则为代表一条句子中第一个词的80维向量,t1是第二个时间步,x1表示句子中第二个词的80维向量。。。所以,输入数据的大小应当是(100, 20, 80)

实际中句子长度不会一模一样,但从RNN的工作流程来看,它可以处理变长序列。在kera中,可以首先将句子设为最大长度,不足这个长度的句子补足0,然后在RNN层前加embedding层或者Mask层过滤掉补足的字符。

多层LSTM

使用LSTM搭建多层LSTM网络还是比较方便的,我们只需要使Sequential()进行堆叠即可。
在进行多层LSTM网络时,需要注意一下几点:

  1. 需要对第一层的LSTM指定input_shape参数。

  2. 将前N-1层LSTM的return_sequence设置为True,保证每一曾都会想下一层传播所有时间步长上的预测,同时保证最后一层的return_sequence为False(如果只需要最后一个输出的话)。

  3. 其实,在第二层时,不用指定input_shape,因为根据上一层的output_dim和当前层的output_dim可以得出当前层中权重矩阵的大小。

def build_model(lstm_layers, dense_layers):
    model = Sequential()

    model.add(LSTM(output_dim=32, 
                   input_shape=(2, 3),
                   activation='relu',
                   return_sequences=True))
    for i in range(lstm_layers - 1):
        model.add(LSTM(output_dim=32 * (i+1),
                       activation='relu',
                       return_sequences=True))

    for i in range(dense_layers - 1):
        model.add(Dense(output_dim=256,
                        activation='relu'))
        model.add(Dropout(0.5))
    model.compile(loss='mae', optimizer='adam', metrics=['accuracy'])
    model.summary()
    return model

参数lstm_layers=5, dense_layers=3,结果如下:

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
lstm_1 (LSTM)                (None, 2, 32)             4608      
_________________________________________________________________
lstm_2 (LSTM)                (None, 2, 32)             8320      
_________________________________________________________________
lstm_3 (LSTM)                (None, 2, 64)             24832     
_________________________________________________________________
lstm_4 (LSTM)                (None, 2, 96)             61824     
_________________________________________________________________
lstm_5 (LSTM)                (None, 2, 128)            115200    
_________________________________________________________________
dense_1 (Dense)              (None, 2, 256)            33024     
_________________________________________________________________
dropout_1 (Dropout)          (None, 2, 256)            0         
_________________________________________________________________
dense_2 (Dense)              (None, 2, 256)            65792     
_________________________________________________________________
dropout_2 (Dropout)          (None, 2, 256)            0         
=================================================================
Total params: 313,600
Trainable params: 313,600
Non-trainable params: 0
_________________________________________________________________

参数量计算

前面提到了LSTM的计算其实和普通神经网络类似,那我们就来推一下参数量,看是否符合我们的预期。

1. 输入的shape=(N, 2, 3)
2. 网络结构:
    _________________________________________________________________
    Layer (type)                 Output Shape              Param #   
    =================================================================
    lstm_1 (LSTM)                (None, 2, 4)              128       
    =================================================================
    Total params: 128
    Trainable params: 128
    Non-trainable params: 0
    _________________________________________________________________
3. 输出的shape=(N, 2, 4)
  1. 首先cell的输出为[2, 4],也就是输出的维度为4(其中2表示步长),输入的数据为[2, 3],所以真正输入cell中的数据维度应该是[2, 7],也就是[2, 3+4](因为要拼接t-1时刻的输出和t时刻的输入);
  2. 接下来每个cell中有四个小黄矩形,也就是四次矩阵乘法,又因为输出的维度是4,所以矩阵乘法就是[2, 7]*[7, 4]=[2, 4],所以一个小黄矩形所需的参数为7x4=28,四个也就是28x4=112
  3. 最后加上每一个小黄矩形后的激活函数的偏置4x4=16

最终,总共的参数值为112+16=128。和程序打印出来的结果一致。
通过上面的推导我们发现,其实实际的参数量和步长是没有关系的,这一点我也验证了一下,通过改变输入shape=(samples, time_steps, input_dim)中的time_stpes的值,参数量不会发生变化。如下(输入shape=[N, 2, 3]time_steps=10):

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
lstm_1 (LSTM)                (None, 10, 4)             128       
=================================================================
Total params: 128
Trainable params: 128
Non-trainable params: 0
_________________________________________________________________

在构建LSTM时,使用变长序列的方法

众所周知,LSTM的一大优势就是其能够处理变长序列。而在使用keras搭建模型时,如果直接使用LSTM层作为网络输入的第一层,需要指定输入的大小。如果需要使用变长序列,那么,只需要在LSTM层前加一个Masking层,或者embedding层即可。

from keras.layers import Masking, Embedding
from keras.layers import LSTM
    model = Sequential()
    model.add(Masking(mask_value= -1,input_shape=(sequenceLength, 23*3,)))
    model.add(LSTM(100, dropout_W=0.2, dropout_U=0.2, input_shape=(sequenceLength, 23*3,)))
使用方法:首先将序列转换为定长序列,如,选取一个序列最大长度,不足这个长度的序列补-1。然后在Masking层中mask_value中指定过滤字符。如上代码所示,序列中补的-1全部被过滤掉。

此外,embedding层也有过滤的功能,但与masking层不同的是,它只能过滤0,不能指定其他字符,并且因为是embedding层,它会将序列映射到一个固定维度的空间中。因此,如果诉求仅仅是让keras中LSTM能够处理变长序列,使用Masking层会比使用Embedding层更加适合。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值