NLTK 2 获得文本语料和词汇资源

原创 2015年07月07日 13:50:06

1 获得文本语料库

1.1 古登堡语料库(Project Gutenberg)

#nltk包含gutenberg的一小部分文本
import nltk
nltk.corpus.gutenberg.fileids()
emma=nltk.corpus.gutenberg.words('austen-emma.txt')
print len(emma)                    #192427
form nltk.corpus import gutenberg
gutenberg.fileids()
for fileid in gutenberg.fileids():
    num_chars=len(gutenberg.raw(fileid))
    num_words=len(gutenberg.words(fileid))
    num_sents=len(gutenberg.sents(fileid))
    num_vocab=len(set([w.lower() for w in gutenberg.words(fileid)]))
    print int(num_chars/num_words),int(num_words/num_sents),int(num_words/num_vocab),fileid

这里写图片描述
平均词长 平均句子长度 本文中每个词出现的平均次数

raw()函数能在没有 进行过任何语言学处理之前把文件的内容分析出来。
sents()函数把文本划分成句子,每个句子是一个词链表。

1.2 网络和聊天文本

from nltk.corpus import webtext
#还有from nltk.corpus import nps_chat
for fileid in webtext.fileids():
    print fileid, webtext.raw(fileid)[:65], '...' 

1.3 布朗语料库

from nltk.corpus import brown

1.4 路透社语料库

from nltk.corpus import reuters

1.5 就职演说语料库

from nltk.corpus import inaugural

1.6 标注文本语料库

1.7 其他预言的语料库

from nltk.corpus import cess_esp.words()

文本分析--NLTK语料库选择

# -*-coding:utf-8-*-""" from nltk.book import * 获取所有的语料库 """""" 古滕堡语料库 """ # from nltk.corpu...
  • kevinelstri
  • kevinelstri
  • 2017年04月12日 17:45
  • 878

2.NLTK之文本语料库

就职演说语料库 该语料库是 55 个文本的集合,每个文本都是一个总统的演说。这 个集合的一个有趣特性是它的时间维度:>>> from nltk.corpus import...
  • sinat_20791575
  • sinat_20791575
  • 2016年12月29日 22:19
  • 658

NLTK的图形化语料文本下载器downloader

进入python交互模式 输入 import nltk nltk.download()
  • appleyuchi
  • appleyuchi
  • 2018年01月13日 16:44
  • 10

NLTK学习之一:简单文本分析

nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集。1 NLTK的安装nltk的安装十分便捷,只需要pip就可以。pip install nl...
  • zzulp
  • zzulp
  • 2017年08月13日 21:09
  • 2835

三、语料与词汇资源

当代自然语言处理都是基于统计的,统计自然需要很多样本,因此语料和词汇资源是必不可少的,本节介绍语料和词汇资源的重要性和获取方式 请尊重原创,转载请注明来源网站www.shareditor.com以及...
  • jiangjingxuan
  • jiangjingxuan
  • 2017年01月25日 12:03
  • 373

Pyhon 自然语言处理(一)NLTK及语料库下载

Python 自然语言处理(一)NLTK及语料库下载 NLTK是用来进行自然语言处理很强大的包,本文介绍Python下安装NLTK及语料下载...
  • Csharp289637169
  • Csharp289637169
  • 2017年01月11日 15:48
  • 646

python自然语言处理学习笔记5——载入语料库

gutenberg语料库 花样电子书>>> import nltk >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'austen-p...
  • Iwanaabigdrumstick
  • Iwanaabigdrumstick
  • 2017年09月21日 12:25
  • 121

《用Python进行自然语言处理》代码笔记(二):第二章 获得文本语料和词汇资源

Python处理自然语言处理 获得文本语料和词汇资源
  • u012845311
  • u012845311
  • 2017年05月09日 16:14
  • 287

sklearn、nltk、gensim语料输入对比之sklearn

sklearn 语料处理:sklearn的sklearn.datasets.load_files方法支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集...
  • xuxiuning
  • xuxiuning
  • 2015年08月24日 13:21
  • 2122

《python自然语言处理》笔记---chap2 获得文本语料和词汇资源

2.1 获取文本语料库 古腾堡语料库 import nltk nltk.corpus.gutenberg.fileids() [u'austen-emma.txt', u'austen-per...
  • u010454729
  • u010454729
  • 2014年03月28日 11:04
  • 1570
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:NLTK 2 获得文本语料和词汇资源
举报原因:
原因补充:

(最多只允许输入30个字)