Tensorflow实例：实现基于LSTM的语言模型

最新推荐文章于 2024-08-07 15:23:57 发布

蚊子爱牛牛

最新推荐文章于 2024-08-07 15:23:57 发布

阅读量7.4k

点赞数

分类专栏： tensorflow 文章标签： Tensorflow 实例 RNN LSTM 深度学习

本文链接：https://blog.csdn.net/XJY104165/article/details/78800628

版权

本文介绍如何使用Tensorflow实现基于LSTM的语言模型，详细阐述了RNN和LSTM的工作原理，并探讨了LSTM如何处理长程依赖问题。通过实例展示了LSTM在时间序列数据处理上的优势。

摘要由CSDN通过智能技术生成

RNN

人每次思考时不会重头开始，而是保留之前思考的一些结果为现在的决策提供支持。例如我们对话时，我们会根据上下文的信息理解一句话的含义，而不是对每一句话重头进行分析。传统的神经网络不能实现这个功能，这可能是其一大缺陷。例如卷积神经网络虽然可以对图像进行分类，但是可能无法对视频中每一帧图像发生的事情进行关联分析，我们无法利用前一帧图像的信息，而循环神经网络则可以解决这个问题。

如上图所示，x是RNN的输入，s是RNN的一个节点，而o是输出。我们对这个RNN输入数据x，然后通过网络计算并得到输出结果o，再将某些信息（state，状态）传入到网络的输入。我们将o与label进行比较可以得到误差，有了这个误差之后，就能使用梯度下降（Gradient Descent）和Back-Propagation Through Time（BPTT）方法对网络进行训练，BPTT与训练前馈神经网络的传统BP方法类似，也是使用反向传播求梯度并更新网络参数权重。另外，还有一种方法叫Real-Time Recurrent Learning(RTRL)，它可以正向求解梯度，不过其计算复杂度比较高。
RNN展开后，类似于有一系列输入x和一系列输出o的串联的普通神经网络，上一层的神经网络会传递信息给下一层。这种串联的结构天然就非常适合时间序列数据的处理和分析。需要注意的是，展开后的每一层级的神经网络，其参数都是相同的，我们并不需要训练成百上千层神经网络的参数，只需要训练一层RNN的参数。这就是它结构巧妙的地方，这里共享参数的思想和卷积网络中权值共享的方式也很类似。

LSTM

对于某些简单的问题，可能只需要最后输入的少量时序信息即可解决。但是对某些复杂问题，可能需要更早的一些信息，甚至是时间序列开头的信息，但间隔太远的输入信息，RNN是难以记忆的，因此长程依赖（Long-term Dependencies）是传统RNN的致命伤。
LSTM天生就是为了解决长程依赖而设计的，不需要特别复杂地调试超参数，默认就可以记住长期的信息。

LSTM的内部结构相比RNN更复杂，其中包含了4层神经网络，其中小圈圈是point-wise的操作，比如向量加法、点乘等，而小矩阵则代表一层可学习参数的神经网络。

LSTM单元上面的那条直线代表了LSTM的状态state，它会贯穿所有串联在一起的LSTM单元，从第一个LSTM单元一直流向最后一个LSTM单元，其中只有少量的线性干预和改变。
状态state在这条隧道中传递时，LSTM单元可以对其添加或删除信息，这些对信息流的修改操作由LSTM中的Gates控制。
这些Gates中包含了一个Sigmoid层和一个向量点乘的操作，这个Sigmoid层的输出是0-1之间的值，它直接控制了信息传递的比例。
每个LSTM单元中包含了3个这样的Gates，用来维护和控制单元的状态信息。凭借对状态信息的存储和修改，LSTM单元就可以实现长程记忆。

Tensorflow实现LSTM

下面我们就使用LSTM来实现一个语言模型，给定上文的语境，即历史出现的单词，语言模型可以预测下一个单词出现的概率，使用的数据集：PTB

#%%
# Copyright 2016 The TensorFlow Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================


import time
import numpy as np
import tensorflow as tf
import reader

#flags = tf.flags
#logging = tf.logging



#flags.DEFINE_string("save_path", None,
#                    "Model output directory.")