nltk(3)——语料库

最新推荐文章于 2024-06-15 22:23:36 发布

江中舟

最新推荐文章于 2024-06-15 22:23:36 发布

阅读量7.3k

点赞数 2

分类专栏：自然语言处理文章标签： NLTK 语料库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qfnu_cjt_wl/article/details/50594231

版权

本文介绍了如何利用NLTK库来操作和分析语料库，包括读取语料库的文件、获取文本数据、计算词频、条件频率分布以及应用bigram模型。通过实例展示了在brown语料库上进行单词计数、条件频率分布图表绘制和拼写检查等功能。

摘要由CSDN通过智能技术生成

NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库，例如：nltk.corpus

每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表，可以通过语料库的fileids()方法。

import nltk.corpus.brown #导入brown语料库

brown.fileids()

每一个语料库都提供了众多的多去数据的方法。例如：对于文档类型的语料库提供读取原始为加工过的文本信息，文本的单词列表，句子列表，段落列表

from nltk.corpus import brown

brown.raw(brown.fileids()[1]) #读取brown中第二个文本的信息

brown.words(brown.fileids()[1]) #读取brown中第二个文本的单词

brown.sents(brown.fileids()[1]) #读取brown中第二个文本的句子

brown.paras(brownfileids()[1]) #读取brown中第二个文本的段落

每一个方法的参数都可以提供多个文档名称或单个，当提供多个文档名称并用逗号隔开时，获取的文档将是单个文档的链接总和。

brown.words(["ca02",brown.fileids()[3]]) #获取文档ca02和文档四的单词，此处注意，当多个文档时，传入的参数是一个list

获取文本单词词频

from nltk.corpus import brown

news_text = brown.words(categories='nes')

fdist = FreqDist(news_text)

modals = ['can','must','could','willl,''might']

for m in modals:

print(m + ":", fdist[m])

FreqDist() 方法获取到每个单词的出现次数

FreqDist({'the': 5580, ',': 5188, '.': 4030, 'of': 2849, 'and': 2146, 'to': 2116, 'a': 1993, 'in': 1893, 'for': 943, 'The': 806, ...})

fdist.keys() #获取所有的键

fdist['the'] #获取对应的键的值

<

最低0.47元/天解锁文章

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
nltk(3)——语料库

NLTK包含众多一系列的语料库，这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库，例如：nltk.corpus每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表，可以通过语料库的fileids()方法。import nltk.corpus.brown #导入brown语料库brown.fileid
复制链接

扫一扫

专栏目录

江中舟 CSDN认证博客专家 CSDN认证企业博客

码龄12年

55: 原创

18万+: 周排名

63万+: 总排名

9万+: 访问

: 等级

1552: 积分

46: 粉丝

32: 获赞

5: 评论

102: 收藏

私信

关注

热门文章

分类专栏

java 28篇
C++
php 1篇
web 7篇
MySQL 4篇
NXP 2篇
linux 9篇
Ubuntu 1篇
tomcat 1篇
java随笔 1篇
Oracle 3篇
hibernate 1篇
算法 1篇
theano 1篇
深度学习 2篇
特征选择 1篇
卡方检测 1篇
自然语言处理 9篇
word2vec 1篇

最新评论

浅谈电商类目预测
weixin_45120058: 我想问一下计算词与类目的重要性，你给的图片里面后面的值算出来是2点多，这个数是怎么算的
mysql中的top语句
weixin_45961022: select *from users limit 0,4; 是从第0条开始选择4条数据，包含第0条，应该一共是四条数据
特征选择-卡方检测
毛球饲养员: 应该是M
特征选择-卡方检测
一座青山: 其中“体育”类新闻样本M。--> 其中“体育”类新闻样本N。 ???
浅谈电商类目预测
LuckyOne_: 想问下“也可以通过query下用户的类目点击，统计分析得到query最相关的类目，人工审核后确定一一对应关系。”这个功能是通过数据埋点能实现吗最近公司在做这块之前没有经验

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。