自然语言处理
cy冲鸭
这个作者很懒,什么都没留下…
展开
-
word2vec代码详解(3)
步骤四,我们可以建立和训练一个Skip-Gram模型了batch_size = 128embedding_size = 128 # Dimension of the embedding vector.单词的维度skip_window = 1 # How many words to consider left and right.num_skips = 2 # How many t...原创 2018-11-18 22:11:57 · 241 阅读 · 0 评论 -
word2vec代码详解(1)-文本数据下载
TensorFlow中word2vec_basic.py的具体代码可见:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/word2vec/word2vec_basic.py下面对其具体分析步骤1.1:实现文本数据的下载,使用urllib.request.urlretri...原创 2018-11-16 23:14:34 · 560 阅读 · 0 评论 -
利用Bidirectional LSTM实现数据集MNIST的分类
双向循环神经网络(Bidirectional Recurrent Neural Networks,Bi-RNN)的核心是把一个普通的单向的RNN拆分成两个方向,一个随着时间序列正向的,一个逆着时间序列反向的。这样当前时间节点的输出就可以同时利用正向、反向两个方向的信息,而不像普通RNN需要等到后面时间节点才可以获取未来时间信息。这两个不同方向的RNN之间不会共用state,它们之间没...原创 2018-11-21 21:52:12 · 1057 阅读 · 0 评论 -
word2vec代码详解(4)
# Step 5: Begin training.num_steps = 100001with tf.Session(graph=graph) as session: # We must initialize all variables before we use them. init.run() print('Initialized') average...原创 2018-11-19 21:38:19 · 403 阅读 · 0 评论 -
word2vec代码详解(2)-创建字典、生成训练样本
第二步,创建字典,取频数最高的50000个单词,按照频数从高到低存到字典中,编号为1到50000,其它单词认定其为Unknow,编号为0# Step 2: Build the dictionary and replace rare words with UNK token.vocabulary_size = 50000def build_dataset(words, n_words):...原创 2018-11-17 23:17:04 · 1095 阅读 · 0 评论 -
在PTB数据上使用TensorFlow建立语言模型1-数据预处理
一、基础知识语言模型效果好坏的常用标准是复杂度(perplexity)。在一个测试集上得到的perplexity越低,说明建模效果越好。计算perplexity值得公式如下:在语言模型中,通常采用perplexity的对数表达形式:在数学上,log perplexity可看成真实分布与预测分布之间的交叉熵,交叉熵描述了两个概率之间的一种距离。 二、PTB数据集的预处理...原创 2018-11-25 22:07:41 · 252 阅读 · 0 评论 -
在PTB数据上使用TensorFlow建立语言模型2-PTB数据的batching方法
将整个文章看成一个长序列,分成batch_size个连续的子序列,每个子序列大小num_batches*num_step,batch中的每一个位置负责其中一个子序列。循环神经网络在处理完一个batch后,它的最终隐藏状态将复制到下一个batch中作为初始值。 其中,每个batch的建模示意图如下: batch之间的建模示意图如下 ...原创 2018-11-27 22:02:16 · 367 阅读 · 0 评论 -
在PTB数据上使用TensorFlow建立语言模型3
词汇表中所有单词的向量维度:[VOCAB,EMB_SIZE]每个batch中的输入维度input_data:[batch_size,num_steps]经tf.nn.embedding_lookup提取词向量后,输入维度input_embedding:[batch_size,num_steps,EMB_SIZE]在训练的每一个时刻,输入的维度[batch_size,EMB_SIZE],...原创 2018-12-03 21:35:11 · 208 阅读 · 0 评论