TensorFlow-10-基于 LSTM 建立一个语言模型

原创 2017年06月09日 20:18:33

今日资料:
https://www.tensorflow.org/tutorials/recurrent
中文版:
http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/recurrent.html
代码:
https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py

今天的内容是基于 LSTM 建立一个语言模型

人每次思考时不会从头开始,而是保留之前思考的一些结果,为现在的决策提供支持。RNN 的最大特点是可以利用之前的信息,即模拟一定的记忆,具体可以看我之前写过的这篇文章:
详解循环神经网络(Recurrent Neural Network)
http://www.jianshu.com/p/39a99c88a565

RNN 虽然可以处理整个时间序列信息,但是它记忆最深的还是最后输入的一些信号,而之前的信号的强度就会越来越低,起到的作用会比较小。
LSTM 可以改善长距离依赖的问题,不需要特别复杂的调试超参数就可以记住长期的信息。关于 LSTM 可以看这一篇文章:
详解 LSTM
http://www.jianshu.com/p/dcec3f07d3b5

今天要实现一个语言模型,它是 NLP 中比较重要的一部分,给上文的语境后,可以预测下一个单词出现的概率。


首先下载 ptb 数据集,有一万个不同的单词,有句尾的标记,并且将罕见的词汇统一处理成特殊字符;

$ wget http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz
$ tar xvf simple-examples.tgz

PTBInput,
定义语言模型处理输入数据的一些参数,包括 LSTM 的展开步数 num_steps,用 reader.ptb_producer 读取数据和标签:

PTBModel,
def __init__(self, is_training, config, input_) 包括三个参数,训练标记,配置参数以及输入数据的实例;
把这几个变量读取到本地,hidden_size 是隐藏层的节点数,vocab_size 是词汇表的大小;

def lstm_cell(),设定基本的 LSTM 单元,用的是 tf.contrib.rnn.BasicLSTMCell
如果 if is_training and config.keep_prob < 1 这个条件的话,在 LSTM 单元后面可以加一个 dropout 层;
再用 tf.contrib.rnn.MultiRNNCell 把多层的 LSTM 堆加到一起;
cell.zero_state 将 LSTM 的初始状态设置为0;

接下来是 embedding 矩阵,行数是词汇表的大小,列数是每个单词的向量表达的维度,在训练过程中,它可以被优化和更新;

接下来我们要定义输出,限制一下反向传播时可以展开的步数,将 inputs 和 state 传到 LSTM,然后把输出结果添加到 outputs 的列表里;

然后将输出的内容串到一起,接下来 softmax 层,接着要定义损失函数 loss,它的定义形式是这样的:

然后我们要加和整个 batch 的误差,再平均到每个样本的误差,并且保留最终的状态,如果不是训练状态就直接返回;

接下来是定义学习速率,根据前面的 cost 计算一下梯度,并将梯度的最大范数设置好,相当于正则化的作用,可以防止梯度爆炸;

这个学习速率还可以更新,将其传入给 _new_lr,再执行 _lr_update 完成修改:

接下来可以定义几种不同大小的模型的参数,其中有学习速率,还有梯度的最大范数,还是 LSTM 的层数,反向传播的步数,隐含层节点数,dropout 保留节点的比例,学习速率的衰减速度:

run_epoch,是定义训练一个 epoch 数据的函数,首先初始化 costs 还有 iters,state;
将 LSTM 的所有 state 加入到 feed_dict 中,然后会生成结果的字典表 fetches,其中会有 cost 和 final_state
每完成 10% 的 epoch 就显示一次结果,包括 epoch 的进度,perplexity(是cost 的自然常数指数,这个指标越低,表示预测越好),还有训练速度(单词数每秒):

main() 中:
reader.ptb_raw_data 读取解压后的数据;
得到 train_data, valid_data, test_data 数据集;

用 PTBInput 和 PTBModel 分别定义用来训练的模型 m,验证的模型 mvalid,测试的模型 mtest;

m.assign_lr 对 m 应用累计的 learning rate;

每个循环内执行一个 epoch 的训练和验证,输出 Learning rate,Train Perplexity, Valid Perplexity。


推荐阅读
历史技术博文链接汇总
也许可以找到你想要的

版权声明:本文为博主原创文章,未经博主允许不得转载。

Tensorflow中Demo学习:RNN语言模型

花了一天时间读Tensorflow中递归神经网络demo(http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/recurrent.h...
  • davidie
  • davidie
  • 2017年04月02日 12:10
  • 1516

TensorFlow实战12:实现基于LSTM的语言模型

1.LSTM的语言模型简介 LSTM(Long Short Term Memory),用来处理有时序联系的信息效果非常明显,在很多情况下,卷积神经网络虽然处理图片增加了其空间特征的联系,但是对于图片...
  • Felaim
  • Felaim
  • 2017年04月15日 15:18
  • 4016

使用TensorFlow实现RNN模型入门篇2--char-rnn语言建模模型

这是使用tf实现RNN模型的第二篇,上次用很简单的例子实现了一个简单的RNN用于解释其原理,这次我们开始结合NLP尝试构建一个char-rnn的语言建模模型。和CNN的入门篇一样,我们这里也直接来分析...
  • liuchonge
  • liuchonge
  • 2017年05月08日 22:04
  • 5792

MXNet官方文档教程(3):基于多层LSTM的字符级语言模型

这是MXNet继上一篇我们介绍的人工神经网络识别手写数字之后另一个进阶(Advanced)示例,本文使用了最新的LSTM模型。由于本人对自然语言处理方向并无深入了解,故只进行了简单的直译,具体细节术语...
  • Catalyst_ZX
  • Catalyst_ZX
  • 2016年12月03日 18:20
  • 3604

使用深度双向LSTM模型构造社区问答系统

本文探讨了如何使用深度双向LSTM网络来解决问答社区的问题。
  • malefactor
  • malefactor
  • 2016年02月15日 18:17
  • 17491

TensorFlow 中文语音识别

本文转载自 http://blog.topspeedsnail.com/archives/10696 数据集下载参见该文。 其中下面的代码进行了一些小小的调整。 其中包含缩进、版本方面(作...
  • sinat_30665603
  • sinat_30665603
  • 2017年07月09日 18:09
  • 4183

Tensorflow 自动文摘: 基于Seq2Seq+Attention模型的Textsum模型

这篇文章中我们将基于Tensorflow的Seq2Seq+Attention模型,介绍如何训练一个中文的自动生成新闻标题的模型。自动总结(Automatic Summarization)类型的模型一直...
  • rockingdingo
  • rockingdingo
  • 2017年02月15日 21:42
  • 16167

TensorFlow 使用例子-LSTM实现序列标注

本文主要改写了一下"Sequence Tagging with Tensorflow"程序。原文是基于英文的命名实体识别(named entity recognition)问题,由于博主找不到相应的中...
  • omnispace
  • omnispace
  • 2017年10月17日 06:34
  • 3586

TensorFlow入门(六) 双端 LSTM 实现序列标注(分词)

@author: huangyongye @creat_date: 2017-04-19 reference: - [1] 【中文分词系列】 4. 基于双向LSTM的seq2seq字标注 ...
  • Jerr__y
  • Jerr__y
  • 2017年04月22日 20:00
  • 14429

双向LSTM NLP序列标注

Bidirectional LSTM-CRF Models for Sequence Tagging  原论文下载地址:https://arxiv.org/pdf/1508.01991v1 论...
  • u014692971
  • u014692971
  • 2017年05月10日 09:50
  • 731
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:TensorFlow-10-基于 LSTM 建立一个语言模型
举报原因:
原因补充:

(最多只允许输入30个字)