LSTM(Long short term memory)网络结构和语言模型代码

       长短时记忆网络(Long short term memoryLSTM)是一种循环神经网络(Recurrent neural networkRNN)。与卷积神经网络不同的是,循环神经网络会对每一个时刻的输入结合当前模型的状态给出一个输出。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM具有非常广泛的应用,包括语音识别、文本分类、语言模型、自动对话、机器翻译、图像标注等领域。本文介绍LSTM的网络结构和主要代码。

 

RNN循环神经网络

      RNN循环神经网络中的循环可以展开成一个个串联的结构,如下图所示。展开后类似于有一系列输入x和一系列输出h的串联的普通神经网络,上一层的神经网络会传递信息给下一层,这种串联的结构非常适合时间序列数据的处理和分析。RNN展开后的每一个层级的神经网络,其参数都是相同的。因此并不需要训练成百上千层神经网络的参数,只需要训练一层RNN的参数,这里共享参数的思想和卷积网络中权值共享的方式类似。

          RNN是一个序列到序列的模型,可以用下图的展开结构来表示其网络模型。

图中,xt表示t时刻的输入,ot表示t时刻的输出,st表示t时刻的记忆。当前时刻的输出是由记忆和当前时刻的输入的。当前时刻的记忆可表示为:f是激活函数。RNN带着当前时刻的记忆去预测当前时刻的输出,对st乘一个权重矩阵V,运用softmax来预测,得到当前时刻的输出:。每个层级的网络都共享参数U、V、W,可以降低计算量。

 

2  LSTM长短时记忆网络结构

     LSTM是一种拥有三个“门”结构的特殊网络结构,依靠“门”结构让信息有选择性地影响循环神经网络中每个时刻的状态。下面通过对一个隐藏层的分析来解释“门”结构。

1)遗忘门。数据信息是上一层信息与现在的输入数据信息的加权之和,激活函数是Sigmoid,输出01之间的值,直接控制了信息传递的比例,如果为0表示不允许信息传递,为1表示让信息全部通过。

2)输入门。也有一个激活函数Sigmoid,决定了哪些信息会被传递。

3)tanh激活层。用于创建隐藏层的候选值。 

4 最后记忆层。获取隐藏层,是基于上一个隐藏层与现隐藏层的候选值,这两个值通过与遗忘门和输入门相乘,决定通过多少信息。

5)输出门。也有一个激活函数Sigmoid决定输出哪些信息。

6)最后隐藏层。先经过一个激活函数,让值控制在[-11]之间,防止梯度爆炸,然后再与输出层相乘决定输出哪部分信息。

 

3  LSTM语言模型代码

       用LSTM来实现一个语言模型,参照论文《Recurrent Neural Network Regularization》的网络结构编写代码。主要代码如下:

1)首先定义语言模型的类classModel。初始化函数__init__(),其中包含六个参数,学习率learning_rate,输入数据的batch_sizenum_steps,字典里有多少个字num_words,用作embeding变量的第一个维度的确定和onehot编码,编码后的字向量的维度dim_embedding,有多少个RNNrnn_layers,在这个模型里,一个RNN层就是一个RNN Cell,各个Cell之间通过TensorFlow提供的多层RNNAPIMultiRNNCell等)组织到一起。

class Model():
    def __init__(self, learning_rate , batch_size, num_steps, num_words, dim_embedding, rnn_layers):
        self.batch_size = batch_size
        self.num_steps = num_steps
        self.num_words = num_words
        self.dim_embedding = dim_embedding
        self.rnn_layers = rnn_layers
        self.learning_rate = learning_rate

2定义一个单个cell函数def get_a_cell (lstm_size, keep_prob) tf.nn.rnn_cell.BasicLSTMCell用来定义单个基本的LSTM单元,在lstm_cell之后用tf.nn.rnn_cell.DropoutWrapper接入一个Dropout

     def get_a_cell(lstm_size, keep_prob):
           lstm = tf.nn.rnn_cell.BasicLSTMCell(lstm_size)
           drop = tf.nn.rnn_cell.DropoutWrapper(lstm, output_keep_prob=keep_prob)
           return drop

 3)通过tf.nn.rnn_cell.MultiRNNCell实现深层循环神经网络中每一个时刻的前向传播过程,其中rnn_layers表示层数,也就是需要经过多少个LSTM结构。构造完多层LSTM以后,通过zero_state对状态进行初始化,再通过tf.nn.dynamic_rnn创建递归神经网络。最后对outputs_tensor的内容用tf.concat串接到一起,并使用tf.reshape将其转为一维向量。

      with tf.variable_scope('rnn'):
           cell = tf.nn.rnn_cell.MultiRNNCell(
                        [get_a_cell(self.dim_embedding, self.keep_prob) for _ in range(self.rnn_layers)])
           self.state_tensor = cell.zero_state(self.batch_size, tf.float32)
           outputs_tensor,final_state = tf.nn.dynamic_rnn(cell, data,initial_state=self.state_tensor)
           self.outputs_state_tensor = final_state
       seq_output = tf.concat(outputs_tensor, 1)
       seq_output_final = tf.reshape(seq_output, [-1, self.dim_embedding])

4) 定义权重W和偏置b,使用tf.matmul将输出seg_output乘上权重加上偏置得到logits,即网络最后的输出。

    with tf.variable_scope('softmax'):
        W = tf.get_variable('W',[self.dim_embedding,self.num_words])
        b = tf.get_variable('b',[self.num_words])
    logits = tf.matmul(seq_output_final, W) + b

5) 用one_hot编码得到输入数据的标签对应的one_hot张量。

    y_onehot = tf.one_hot(self.Y, self.num_words)
    y_reshaped = tf.reshape(y_onehot, logits.get_shape())

6)用交叉熵计算loss,最后进行优化。

    loss = tf.nn.softmax_cross_entropy_with_logits(labels = y_reshaped, logits = logits)

 

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/fxfviolet/article/details/82255352

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 长短期记忆网络(Long Short Term Memory Networks,LSTM)是一种用于处理序列数据的深度学习模型,用于解决传统循环神经网络(RNN)中的梯度消失问题。 Python是一种通用的编程语言,可以使用Python编写LSTM模型。在Python中,可以使用多个深度学习框架(如TensorFlow、Keras、PyTorch等)中的来实现LSTM网络。 要实现LSTM模型,首先需要导入相应的深度学习。然后,通过定义模型的参数、数据预处理、定义LSTM层、编译模型、训练模型和评估模型等步骤来构建LSTM网络。在编写代码时,可以使用Python的强大的科学计算来处理数据和进行数学计算。 在使用Python实现LSTM时,可以根据具体的需求进行调整和优化模型的结构和参数。可以通过调整LSTM层的单元数、增加隐藏层、引入正则化和优化算法来提高模型性能。此外,还可以使用交叉验证和调参技术来选择最佳的超参数。 Python作为一种简洁易用的编程语言,提供了丰富的工具和来支持LSTM模型的实现和应用。通过使用Python,我们可以轻松地构建使用LSTM网络,从而应用于各种序列数据相关的任务,如语音识别、自然语言处理、时间序列预测等。 ### 回答2: 长短期记忆网络(Long Short Term Memory Networks,简称LSTM)是一种特殊的循环神经网络(Recurrent Neural Networks,简称RNN),用于处理和预测序列数据。 在Python中,我们可以使用一些开源的深度学习框架,如TensorFlow或PyTorch,来构建和训练LSTM网络。这些框架提供了一系列函数和类,可以轻松地构建、训练和测试LSTM模型。 首先,我们需要导入相应的和模块。例如,在TensorFlow中,我们可以使用`import tensorflow as tf`来导入TensorFlow。 接下来,我们可以定义LSTM模型的结构。LSTM网络由多个LSTM单元组成,每个单元有一个隐藏状态和一个记忆单元。我们可以使用框架提供的API来定义一个LSTM层,并设置相应的参数,如隐藏单元的数量和输入序列的长度。 然后,我们可以定义模型的其余部分,如输入层、输出层和损失函数。根据具体任务的要求,我们可以选择不同的网络结构和损失函数来满足需求。 接下来,我们可以进行模型的训练。我们需要提供训练数据和标签,并选择适当的优化算法来更新模型的参数。通过迭代训练过程,我们可以逐渐改善模型的性能。 最后,我们可以使用训练好的模型对新的数据进行预测。我们可以加载保存的模型,并使用它来预测新的序列数据。 总之,使用Python可以方便地构建和训练LSTM网络。通过选择适当的开源深度学习框架和实现合适的网络结构,我们可以有效地在序列数据任务中应用LSTM网络。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值