自然语言处理——nltk——语料库

1. 语料库和WordNet

语料库可以从wordnet内置语料库导入,也可以从外界导入

1.1 访问内置语料库

内置语料库列表可以在nltk官网查询

from nltk.corpus import reuters		#路透社语料库

查询语料库内容,可以调用对象的fileids()函数, 该函数得到文件及其相对路径

files=reuters.fileids()
print(files)

进一步访问具体内容,可以采用对象的words()函数

words=reuters.words(''test/14826'')

该语料库已经按照层次分为90个主题

cat=reuters.categories()
print(cat)

可以按照主题进行访问

x=reuters.words(categories=['bop','cocoa'])

1.2 加载外界语料库:略

1.3 brown语料库,词频计算

from nltk.corpus import browm 
import nltk
print(brown.catagories())
text=brown.words(catagories='fiction')

FreqDist: 词频统计

fdist=nltk.FreqDist(text)
print(fdist['who'])

属性:

fdist.max()
fdist.most_common(10)

fdist.plot(cumulative=True)

1.4 词义消歧

找出同义词集

from nltk.corpus import wordnet as wn
chair='chair'
chair_synsets=wn.synset(chair)
for synset in chair_synsets:
	print(synset,':')
	print('Definition:',synset.definition())# 定义
	print('Lemmas/Synonomou:',synset.lemma_names())#词条
	print('Example:',synset.example(),'\n')#例句
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值