第一章 获取语料库

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u011588619/article/details/79802667

1.获取文本语料

通过import nltk.book 访问定义好的文本

通过nltk.corpus.gutenberg.fileids()访问古藤堡项目的文件

from nltk.corpus import gutenburg

        emma=gutenburg.fileids()

       print(emma)

  emma=gutenburg.words('austen-emma.txt')#获取该文本的词汇

  emma=gutenburg.raw()#获取原始文本

 emma= gutenburg.sents()将句子转化成链表

Nltk中定义的基本语料库函数(nltk.corpus.reader)

fileids() 语料库中的文件
fileids([categories]) 这些分类对应的语料库中的文件
categories() 语料库中的分类
categories([fileids]) 这些文件对应的语料库中的分类
raw() 语料库的原始内容
raw(fileids=[f1,f2,f3]) 指定文件的原始内容
raw(categories=[c1,c2]) 指定分类的原始内容
words() 整个语料库中的词汇
words(fileids=[f1,f2,f3]) 指定文件中的词汇
words(categories=[c1,c2]) 指定分类中的词汇
sents() 指定分类中的句子
sents(fileids=[f1,f2,f3]) 指定文件中的句子
sents(categories=[c1,c2]) 指定分类中的句子
abspath(fileid) 指定文件在磁盘上的位置
encoding(fileid) 文件的编码(如果知道的话)
open(fileid) 打开指定语料库文件的文件流
root() 到本地安装的语料库根目录的路径

gutenberg(古腾堡)

webtext(网络和聊天文本)

reuters(路透社语料库)

inaugural(就职演说)


展开阅读全文

没有更多推荐了,返回首页