NLTK 2 获得文本语料和词汇资源

1 获得文本语料库

1.1 古登堡语料库(Project Gutenberg)

#nltk包含gutenberg的一小部分文本
import nltk
nltk.corpus.gutenberg.fileids()
emma=nltk.corpus.gutenberg.words('austen-emma.txt')
print len(emma)                    #192427
form nltk.corpus import gutenberg
gutenberg.fileids()
for fileid in gutenberg.fileids():
    num_chars=len(gutenberg.raw(fileid))
    num_words=len(gutenberg.words(fileid))
    num_sents=len(gutenberg.sents(fileid))
    num_vocab=len(set([w.lower() for w in gutenberg.words(fileid)]))
    print int(num_chars/num_words),int(num_words/num_sents),int(num_words/num_vocab),fileid

这里写图片描述
平均词长 平均句子长度 本文中每个词出现的平均次数

raw()函数能在没有 进行过任何语言学处理之前把文件的内容分析出来。
sents()函数把文本划分成句子,每个句子是一个词链表。

1.2 网络和聊天文本

from nltk.corpus import webtext
#还有from nltk.corpus import nps_chat
for fileid in webtext.fileids():
    print fileid, webtext.raw(fileid)[:65], '...' 

1.3 布朗语料库

from nltk.corpus import brown

1.4 路透社语料库

from nltk.corpus import reuters

1.5 就职演说语料库

from nltk.corpus import inaugural

1.6 标注文本语料库

1.7 其他预言的语料库

from nltk.corpus import cess_esp.words()
阅读更多
文章标签: python nlp
个人分类: python nlp nltk
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

不良信息举报

NLTK 2 获得文本语料和词汇资源

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭