自然语言处理——nltk——语料库

最新推荐文章于 2023-09-15 11:12:59 发布

qq_41728130

最新推荐文章于 2023-09-15 11:12:59 发布

阅读量701

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_41728130/article/details/102766920

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. 语料库和WordNet

语料库可以从wordnet内置语料库导入，也可以从外界导入

1.1 访问内置语料库

内置语料库列表可以在nltk官网查询

from nltk.corpus import reuters		#路透社语料库

查询语料库内容，可以调用对象的fileids()函数, 该函数得到文件及其相对路径

files=reuters.fileids()
print(files)

进一步访问具体内容，可以采用对象的words()函数

words=reuters.words(''test/14826'')

该语料库已经按照层次分为90个主题

cat=reuters.categories()
print(cat)

可以按照主题进行访问

x=reuters.words(categories=['bop','cocoa'])

1.2 加载外界语料库：略

1.3 brown语料库，词频计算

from nltk.corpus import browm 
import nltk
print(brown.catagories())
text=brown.words(catagories='fiction')

FreqDist: 词频统计

fdist=nltk.FreqDist(text)
print(fdist['who'])

属性：

fdist.max()
fdist.most_common(10)

fdist.plot(cumulative=True)

1.4 词义消歧

找出同义词集

from nltk.corpus import wordnet as wn
chair='chair'
chair_synsets=wn.synset(chair)
for synset in chair_synsets:
	print(synset,':')
	print('Definition:',synset.definition())# 定义
	print('Lemmas/Synonomou:',synset.lemma_names())#词条
	print('Example:',synset.example(),'\n')#例句

qq_41728130

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理——nltk——语料库

1. 语料库和WordNet语料库可以从wordnet内置语料库导入，也可以从外界导入1.1 访问内置语料库内置语料库列表可以在nltk官网查询from nltk.corpus import reuters #路透社语料库查询语料库内容，可以调用对象的fileids()函数, 该函数得到文件及其相对路径files=reuters.fileids()print(files)进一...
复制链接

扫一扫