python语料库_Python-使用NLTK创建新的语料库

最新推荐文章于 2022-06-26 16:37:43 发布

weixin_39620684

最新推荐文章于 2022-06-26 16:37:43 发布

阅读量1.4k

点赞数 1

文章标签： python语料库

本文介绍了如何使用Python的nltk库创建自定义的语料库，包括创建文本文件、初始化PlaintextCorpusReader以及如何在不同级别访问语料库中的内容，如文件、段落、句子和单词。此外，还强调了nltk库的分句和分词功能，但可能不适用于所有语言。

摘要由CSDN通过智能技术生成

小编典典

如果你的目录如下所示：

newcorpus/

file1.txt

file2.txt

...

只需使用以下代码行，你就可以得到一个语料库：

import os

from nltk.corpus.reader.plaintext import PlaintextCorpusReader

corpusdir = 'newcorpus/' # Directory of corpus.

newcorpus = PlaintextCorpusReader(corpusdir, '.*')

注意：该PlaintextCorpusReader将会使用默认设置，nltk.tokenize.sent_tokenize()并将nltk.tokenize.word_tokenize()你的文本分为句子和单词，并且这些功能是针对英语构建的，可能不适用于所有语言。

这是创建测试文本文件的完整代码，以及如何使用NLTK创建语料库以及如何在不同级别访问语料库：

import os

from nltk.corpus.reader.plaintext import PlaintextCorpusReader

# Let's create a corpus with 2 texts in different textfile.

txt1 = """This is a foo bar sentence.\nAnd this is the first txtfile in the corpus."""

txt2 = """Are you a foo bar? Yes I am. Possibly, everyone is.\n"""<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39620684

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python建立英文语料库_使用NLTK创建新的语料库

weixin_39825105的博客

12-05

1276

经过几年的研究之后，下面是更新的教程如何使用文本文件目录创建NLTK语料库？主要思想是利用nltk.corpu.Reader包裹。中有一个文本文件目录的情况下英语，英国的，英国人的，最好使用PlaintextCorposReader.如果您有一个如下所示的目录：newcorpus/file1.txtfile2.txt...只需使用这些代码行，您就可以得到一个语料库：import...

python自然语言处理学习笔记5——载入语料库

Iwanaabigdrumstick的博客

09-21

3153

gutenberg语料库花样电子书>>> import nltk >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burges

参与评论您还未登录，请先登录后发表或查看评论

nltk使用方法总结

weixin_43758551的博客

08-28

1645

https://www.52nlp.cn/tag/nltk%E4%BB%8B%E7%BB%8D https://www.52nlp.cn/author/baiboy https://www.cnblogs.com/baiboy/p/nltk1.html https://www.cnblogs.com/chen8023miss/p/11458571.html https://zhuanlan.zhihu.com/p/98808960 https://blog.csdn.net/sunflower_sara/a

nltk(3)——语料库

wang735019的专栏

12-29

7390

NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库，例如：nltk.corpus 每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表，可以通过语料库的fileids()方法。 import nltk.corpus.brown #导入brown语料库 brown.fileid

nltk-构建和使用语料库-可用于小说的推荐-完整实例

技术博客

11-19

4473

将构建语料库和使用语料库两个步骤拆分开，适用于更大数据量的场景：语料库提前处理好，要使用时直接加载。

自然语言处理——nltk——语料库

qq_41728130的博客

10-28

721

1. 语料库和WordNet 语料库可以从wordnet内置语料库导入，也可以从外界导入 1.1 访问内置语料库 内置语料库列表可以在nltk官网查询 from nltk.corpus import reuters #路透社语料库 查询语料库内容，可以调用对象的fileids()函数, 该函数得到文件及其相对路径 files=reuters.fileids() print(files) 进一...

python训练自己中文语料库_自然语言处理——NLTK中文语料库语料库

weixin_39805883的博客

11-26

847

Python NLTK库中包含着大量的语料库，但是大部分都是英文，不过有一个Sinica（中央研究院）提供的繁体中文语料库，值得我们注意。在使用这个语料库之前，我们首先要检查一下是否已经安装了这个语料库。>>>import nltk>>>nltk.download()检查箭头所指的sinica_treebank是否安装，如果未安装，则首先要进行安装。安装完毕后就可以使用了import nltkfr...

Python库 | anyks_lm-3.3.6-cp38-cp38-macosx_10_15_x86_64.whl

03-14

5. **机器翻译**：通过训练双语语料库，实现从一种语言到另一种语言的自动化翻译。 6. **语音识别**：可能包含了将音频转换为文本的功能，这在语音助手、智能家居等领域有着广泛的应用。 7. **文本生成**：基于预...

python训练自己中文语料库_Python nltk载入自己的中文语料库的两种方法 for Windows7...

weixin_39939276的博客

11-21

645

前提：把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下；然后在命令行输入以下之后，即可看到所有的txt文件名列表了。第一种方法：BracketParseCorpusReader更适合已解析过的语料库from nltk.corpus import BracketParseCorpusReadercorpus_root =r"F:\nltk_data\corpor...

如何建语料库_如何为python-NLTK建立翻译语料库？

weixin_39943678的博客

02-05

474

对于类似翻译的数据集，NLTK可以使用AlignedCorpusReader读取单词对齐句子的语料库。文件必须具有以下格式：first source sentencefirst target sentencefirst alignmentsecond source sentencesecond target sentencesecond alignment这意味着假设标记被空格隔开，句子以不同的行...

Python nltk载入自己的中文语料库的两种方法 for Windows7

热门推荐

shanyuelanhua的专栏

04-21

1万+

前提：把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下；然后在命令行输入以下之后，即可看到所有的txt文件名列表了。第一种方法：BracketParseCorpusReader更适合已解析过的语料库 from nltk.corpus import BracketParseCorpusReader corpus_root =r"F:\nltk_data\co

python语料库是什么,Python 语料库的搭建

weixin_28890941的博客

03-26

983

语料库就是我们要分析文件的合计。语料库构建http://blog.csdn.net/happylife_haha/article/details/44566975构建方法：os.walk(fileDir)fileDir 文件夹路径文件读取：codecs.open(filePath, method, encoding)filePath 文件路径method 打开方式，r 读， w 写， rw 读写；...

nltk.corpus.conll2002.fileids() LookupError

aijava1的博客

03-31

548

1.nltk_data 数据集的结构简单记录下使用的nltk_data/corpora的数据，不是packages里面的数据，其中nltk.download()下载的数据就在nltk_data/corpora (python36) zutnlp@Dell-R730:~/nltk_data$ tree -L 5 . ├── collections │ ├── all-corpora.xml │ ├── all-nltk.xml │ ├── all.xml │ ├── book.xml │

第2章构建自定义语料库

Triumph19的博客

06-26

4775

构建自定义语料库

nltk corpus下载

jokerxsy的博客

03-31

548

import nltk nltk.download() 出现这个弹出框我要用到wordnet的提取词干，所以然后就下载好了

NLTK（语料库）

csdn_lzw的博客

05-21

4711

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41 一、古腾堡语料库 古腾堡语料库主要包含一些文学书籍。先看一个例子，查看古腾堡语料库包含的文本名称： import nltk nltk.corpus.gutenberg.fileids() Out[82]: [u'austen-emma.txt', u'austen-persuasion.txt',...

python里的nltk库_Python 自然语言处理——nltk库入门之词性标注

weixin_36241311的博客

01-13

2180

nltk 自然语言处理库源自宾夕法尼亚大学计算机与信息科学系的计算机语言学课程，在数十名优秀的贡献者的帮助下不断壮大，成为最常用的自然语言处理库之一。下面列出了nltk库中的一些重要的模块——nltk.corpus————获取语料库。——————语料库和词典的标准化接口——nltk.tokenize,nltk.stem————字符串处理——————分词，句子分解，提取主干——nltk.colloc...

NLTK（词典资源）

csdn_lzw的博客

05-22

3962

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.4 节 P63 一、词汇列表语料库 nltk.corpus.words 仅仅包含词汇列表的语料库，可以用来寻找文本语料中不常见的或者拼写错误的词汇 import nltk def unusual_words(text): text_vocab = set([w.lower() for w in text i...

python汉字同义词替换_用WordNet和NLTK-python替换语料库中的同义词