- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 自然语言处理--PTB文本数据集的预处理方法(下篇 2/2)
在文本数据中,由于每个句子的长度不同,又无法像图像一样可以调整到固定高度,所以在对文本数据进行批处理 (batching) 时需要一些特殊操作,最常见的方法是使用填充(padding)的方法,即将同一批块内的句子长度补齐。其次,相对于循环神经网络,基于循环神经网络的神经语言模型的结构主要多了两层: 词向量层(embedding)和 softmax 层。词向量层在输入层,每个单词用一个实数向量表示,...
2018-03-30 17:26:12 2747 2
原创 自然语言处理--PTB数据集的预处理基本方法(上篇 1/2)
PTB数据集是目前语言模型学习中使用最为广泛的文本数据集,下载地址如下:点击打开链接在解压上述链接的压缩包,找到文件中的data文件,会发现有三个已经预处理国的三分数据文件ptb.test.txtptb.train.txtptb.valid.txtimport codecsimport collectionsfrom operator import itemgetter#训练集的数据文件...
2018-03-30 16:47:27 4282 1
原创 the basic approach to read dataset(TFRecord) with iterator in Tensorflow
1. the three steps for reading datasets 1) define the constructor method of dataset; 2) define the iterator; 3) to obtain the data tensor from iterator by using get_next method.For example :import ...
2018-03-25 15:58:43 357
原创 MNIST数据集的卷积神经网络训练代码具体实现示例--Tensorflow 框架
系统环境win10, 数据集是MNIST 数据集,运行环境 PyCharmimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'import tensorflow as tfimport numpy as npfrom tensorflow.examples.tutorials.mnist import input_data# loading ...
2018-03-11 23:00:23 810
原创 R语言中的 "Error in gzfile(file, "wb") :cannot open the connection" 异常处理总结
R语言中的 "Error in gzfile(file, "wb") :cannot open the connection" 异常处理总结最近学R语言做数据分析时,遇到到一个很让人头疼的问题,reshape2 包下载好了,但 Rstudio 运行后,就报出下面的红色报错异常, 说是打不开链接,画图渲染异常。具体情况如下:> par(mfrow = c(length(colors(
2018-03-04 23:37:53 56641 28
原创 R语言中常用的数据变量名修改方法总结
变量的重命名 常用的修改变量名的方法,分别是利用交互式编辑器,rename(),names(),colnames(), rownames().1)交互式编辑器修改变量名若用交互式编辑器来修改数据集中的变量名,可通过fix()函数实现。若数据集为矩阵或数据框,可直接单击弹出的编辑器对话框对变量名进行手动修改;若数据集为列表形式,则可将交互式编辑器转换为记事本,就可对“.names”之后对应的变量名进...
2018-03-03 21:03:23 63482 1
原创 在Windows 10系统中Tensorflow 框架 下的数据加载方法总结
1. Preloaded data; 在Tensorflow 图中定义常量或变量来保存所有数据。2. feeding(); python 产生的数据填充到后端;3 reading from file: 从文件中直接读取,让队列管理器从文件中读取数据。下面是具体实现的代码示例:import osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'import tenso...
2018-03-02 13:27:30 256
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人