NLTK 2 获得文本语料和词汇资源

原创 2015年07月07日 13:50:06

1 获得文本语料库

1.1 古登堡语料库(Project Gutenberg)

#nltk包含gutenberg的一小部分文本
import nltk
nltk.corpus.gutenberg.fileids()
emma=nltk.corpus.gutenberg.words('austen-emma.txt')
print len(emma)                    #192427
form nltk.corpus import gutenberg
gutenberg.fileids()
for fileid in gutenberg.fileids():
    num_chars=len(gutenberg.raw(fileid))
    num_words=len(gutenberg.words(fileid))
    num_sents=len(gutenberg.sents(fileid))
    num_vocab=len(set([w.lower() for w in gutenberg.words(fileid)]))
    print int(num_chars/num_words),int(num_words/num_sents),int(num_words/num_vocab),fileid

这里写图片描述
平均词长 平均句子长度 本文中每个词出现的平均次数

raw()函数能在没有 进行过任何语言学处理之前把文件的内容分析出来。
sents()函数把文本划分成句子,每个句子是一个词链表。

1.2 网络和聊天文本

from nltk.corpus import webtext
#还有from nltk.corpus import nps_chat
for fileid in webtext.fileids():
    print fileid, webtext.raw(fileid)[:65], '...' 

1.3 布朗语料库

from nltk.corpus import brown

1.4 路透社语料库

from nltk.corpus import reuters

1.5 就职演说语料库

from nltk.corpus import inaugural

1.6 标注文本语料库

1.7 其他预言的语料库

from nltk.corpus import cess_esp.words()

相关文章推荐

python gutenberg古腾堡语料库

import nltk from nltk.corpus import gutenberg a = gutenberg.fileids() print(a) emma = gutenberg.word...

python自然语言处理学习笔记第二章

1  NLTK 包含古腾堡项目(Project Gutenberg)电子文本档案的经过挑选的一小部分文本。该项目大约有25,000(现在是36,000 了)本免费电子图书,放在http://www.g...

《python自然语言处理》笔记---chap2 获得文本语料和词汇资源

2.1 获取文本语料库 古腾堡语料库 import nltk nltk.corpus.gutenberg.fileids() [u'austen-emma.txt', u'austen-per...

《python自然语言处理》笔记---chap2 获得文本语料和词汇资源(续)

---------我可以投诉吗?不知道为什么上午接着写了好多,明明发表了,可是还是没了,是不是不能写那么多?----- 载入你自己的语料库 待续。。。 2.3 更多关于python:代码重用 ...

第2章 获得文本语料和词汇资源

时间所限,仅对自己用到的习题做了整理解答,如果想知道其他题目的答案,请留言,我会不定期查看博客的。^_^。希望大家多多与我交流意见,我会继续努力写的。 1. 创建一个变量phrase包含一个词的链表...

NLTK学习笔记(二):文本、语料资源和WordNet汇总

语料库基本函数表 文本语料库分类 常见语料库及其用法古藤堡语料库 网络聊天体 布朗语料库 路透社语料库 就职演说语料库 载入自定义语料库 词典资源 停用词语料库 名字词典 发音词典 WordNet面向...

自己动手做聊天机器人 三-语料与词汇资源

当代自然语言处理都是基于统计的,统计自然需要很多样本,因此语料和词汇资源是必不可少的,本节介绍语料和词汇资源的重要性和获取方式 请尊重原创,转载请注明来源网站www.shareditor...

2.NLTK之文本语料库

就职演说语料库 该语料库是 55 个文本的集合,每个文本都是一个总统的演说。这 个集合的一个有趣特性是它的时间维度:>>> from nltk.corpus import...

sklearn、nltk、gensim语料输入对比之sklearn

sklearn 语料处理:sklearn的sklearn.datasets.load_files方法支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:NLTK 2 获得文本语料和词汇资源
举报原因:
原因补充:

(最多只允许输入30个字)