NLTK学习笔记(二):文本、语料资源和WordNet汇总

本文介绍了NLTK中的语料库,包括古藤堡、布朗、路透社和就职演说语料库的使用,以及如何加载自定义语料库。此外,还详细探讨了WordNet的词义网络,如同义词、上位词、下位词、反义词的关系,以及如何计算词义相似度。
摘要由CSDN通过智能技术生成

语料库基本函数表

示例 描述
fileids() 语料库中的文件
fileids([categories]) 对应分类中的语料库文件
categories() 语料库的分类
categories([fileids]) 文件对应的语料库分类
raw(fileids=[f1,f2..],categories=[c1,c2…]) 对应文件和分类中原始内容。参数可以式空
words(fileids=[f1,f2..],categories=[c1,c2…]) 对应文件和分类的词汇。参数可以空
sents() sents(fileids=[f1,f2..],categories=[c1,c2…])
abspath(fileid) 文件在磁盘的位置
encoding(fileid) 文件的编码
open(fileid) 打开文件流
root() 本地语料库corpus的位置
readme() README文件的内容

文本语料库分类

  1. 最简单的是孤立的文本集合
  2. 按照文本等标签分类组成结构,如:布朗语料库
  3. 分类不严格,会重叠的语料库,如:路透社语料库
  4. 随时间/语言用法改变的语料库 ,如:就职演说库

常见语料库及其用法

注意nltk.Text(string) 返回类似text1的Text对象

古藤堡语料库

包含36000本电子书,可以在这里下载

from nltk.corpus import gutenberg
print(gutenberg.fileids())

emma= gutenberg.words('austen-emma.txt')
print(gutenberg.raw('austen-emma.txt'))
emma = nltk.Text(emma)#
print(emma[:10])
网络&&聊天体

网络text主要是非正式文学,论坛交流,剧本,评论等。聊天文本是根据聊天室划分的(文件名包括 日期、聊天室、帖子数量),被划分为15个大文件。

#网络体:webtext
from nltk.corpus import webtext
for fileid in webtext.fileids():
    print(fileid,webtext.raw(fileid)[:50])
[out]
firefox.txt Cookie Manager: "Don't allow sites that set remove
grail.txt SCENE 1: [wind] [clop clop clop] 
KING ARTHUR: Who
overheard.txt White guy: So, do you have any plans for this even
pirates.txt PIRATES OF THE CARRIBEAN: DEAD MAN'S CHEST, by Ted
singles.txt 25 SEXY MALE, seeks attrac older single lad
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值