1. 语料库和WordNet
语料库可以从wordnet内置语料库导入,也可以从外界导入
1.1 访问内置语料库
内置语料库列表可以在nltk官网查询
from nltk.corpus import reuters #路透社语料库
查询语料库内容,可以调用对象的fileids()函数, 该函数得到文件及其相对路径
files=reuters.fileids()
print(files)
进一步访问具体内容,可以采用对象的words()函数
words=reuters.words(''test/14826'')
该语料库已经按照层次分为90个主题
cat=reuters.categories()
print(cat)
可以按照主题进行访问
x=reuters.words(categories=['bop','cocoa'])
1.2 加载外界语料库:略
1.3 brown语料库,词频计算
from nltk.corpus import browm
import nltk
print(brown.catagories())
text=brown.words(catagories='fiction')
FreqDist: 词频统计
fdist=nltk.FreqDist(text)
print(fdist['who'])
属性:
fdist.max()
fdist.most_common(10)
fdist.plot(cumulative=True)
1.4 词义消歧
找出同义词集
from nltk.corpus import wordnet as wn
chair='chair'
chair_synsets=wn.synset(chair)
for synset in chair_synsets:
print(synset,':')
print('Definition:',synset.definition())# 定义
print('Lemmas/Synonomou:',synset.lemma_names())#词条
print('Example:',synset.example(),'\n')#例句