Tensorflow实例:实现基于LSTM的语言模型

RNN

人每次思考时不会重头开始,而是保留之前思考的一些结果为现在的决策提供支持。例如我们对话时,我们会根据上下文的信息理解一句话的含义,而不是对每一句话重头进行分析。传统的神经网络不能实现这个功能,这可能是其一大缺陷。例如卷积神经网络虽然可以对图像进行分类,但是可能无法对视频中每一帧图像发生的事情进行关联分析,我们无法利用前一帧图像的信息,而循环神经网络则可以解决这个问题。

这里写图片描述

如上图所示,x是RNN的输入,s是RNN的一个节点,而o是输出。我们对这个RNN输入数据x,然后通过网络计算并得到输出结果o,再将某些信息(state,状态)传入到网络的输入。我们将o与label进行比较可以得到误差,有了这个误差之后,就能使用梯度下降(Gradient Descent)和Back-Propagation Through Time(BPTT)方法对网络进行训练,BPTT与训练前馈神经网络的传统BP方法类似,也是使用反向传播求梯度并更新网络参数权重。另外,还有一种方法叫Real-Time Recurrent Learning(RTRL),它可以正向求解梯度,不过其计算复杂度比较高。
RNN展开后,类似于有一系列输入x和一系列输出o的串联的普通神经网络,上一层的神经网络会传递信息给下一层。这种串联的结构天然就非常适合时间序列数据的处理和分析。需要注意的是,展开后的每一层级的神经网络,其参数都是相同的,我们并不需要训练成百上千层神经网络的参数,只需要训练一层RNN的参数。这就是它结构巧妙的地方,这里共享参数的思想和卷积网络中权值共享的方式也很类似。

LSTM

对于某些简单的问题,可能只需要最后输入的少量时序信息即可解决。但是对某些复杂问题,可能需要更早的一些信息,甚至是时间序列开头的信息,但间隔太远的输入信息,RNN是难以记忆的,因此长程依赖(Long-term Dependencies)是传统RNN的致命伤。
LSTM天生就是为了解决长程依赖而设计的,不需要特别复杂地调试超参数,默认就可以记住长期的信息。

这里写图片描述
LSTM的内部结构相比RNN更复杂,其中包含了4层神经网络,其中小圈圈是point-wise的操作,比如向量加法、点乘等,而小矩阵则代表一层可学习参数的神经网络。

  • LSTM单元上面的那条直线代表了LSTM的状态state,它会贯穿所有串联在一起的LSTM单元,从第一个LSTM单元一直流向最后一个LSTM单元,其中只有少量的线性干预和改变。
  • 状态state在这条隧道中传递时,LSTM单元可以对其添加或删除信息,这些对信息流的修改操作由LSTM中的Gates控制。
  • 这些Gates中包含了一个Sigmoid层和一个向量点乘的操作,这个Sigmoid层的输出是0-1之间的值,它直接控制了信息传递的比例。
  • 每个LSTM单元中包含了3个这样的Gates,用来维护和控制单元的状态信息。凭借对状态信息的存储和修改,LSTM单元就可以实现长程记忆。

Tensorflow实现LSTM

下面我们就使用LSTM来实现一个语言模型,给定上文的语境,即历史出现的单词,语言模型可以预测下一个单词出现的概率,使用的数据集:PTB

#%%
# Copyright 2016 The TensorFlow Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================


import time
import numpy as np
import tensorflow as tf
import reader

#flags = tf.flags
#logging = tf.logging



#flags.DEFINE_string("save_path", None,
#                    "Model output directory.")
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值