自然语言处理--PTB数据集的预处理基本方法（上篇 1/2）

最新推荐文章于 2023-07-06 21:26:06 发布

悠风号

最新推荐文章于 2023-07-06 21:26:06 发布

阅读量4.2k

点赞数 1

分类专栏：自然语言处理文章标签： PTB NLP Tensorflow

本文链接：https://blog.csdn.net/qq_23031939/article/details/79759344

版权

PTB数据集是目前语言模型学习中使用最为广泛的文本数据集，下载地址如下：

点击打开链接

在解压上述链接的压缩包，找到文件中的data文件，会发现有三个已经预处理国的三分数据文件

ptb.test.txt

ptb.train.txt

ptb.valid.txt

import codecs
import collections
from operator import itemgetter

#训练集的数据文件
RAW_DATA = "D:/chdownload/simple-examples/simple-examples/data/ptb.train.txt"
# 定义一个将为文本文件转化为词汇表文件名
VOCAB_OUTPUT = "ptb.vocab"

# 统计单词的出现频率
counter = collections.Counter() # statistic frequence of vocab
with codecs.open(RAW_DATA, "r", "utf-8") as f:
    for line in f:
        for word in line.strip().split():
            counter[word] += 1

#按词频顺序对单词进行排序
sorted_word_to_cnt = sorted(counter.items(),
                            key=itemgetter(1),

最低0.47元/天解锁文章

悠风号

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
自然语言处理--PTB数据集的预处理基本方法（上篇 1/2）

PTB数据集是目前语言模型学习中使用最为广泛的文本数据集，下载地址如下：点击打开链接在解压上述链接的压缩包，找到文件中的data文件，会发现有三个已经预处理国的三分数据文件ptb.test.txtptb.train.txtptb.valid.txtimport codecsimport collectionsfrom operator import itemgetter#训练集的数据文件...
复制链接

扫一扫

专栏目录