nltk(1)——常用函数

搜索文本

关键词上下文——concordance

使用函数concordance可以查找关键词每次的出现,以及连同关键词出现的上下文一起显示。(查看关键词出现的上下文)
from nltk.book import *
text1.concordance("monstrous")

这里写图片描述

相似上下文查找——similar

使用similar函数可以看到同关键词出现在相似的上下文中的词,即查找近义词
text1.similar("monstrous") #查找monstrous的近义词,出现在相似的上下文中的词
这里写图片描述

共同上下文——common_contexts

函数common_contexts允许研究两个或两个以上的词共同的上下文。
text2.common_contexts(["monstrous","very"])
这里写图片描述
注意此处的多个单词须要使用[]括起来

生成随意文本——generate

`text3.generate()`    #基于文章生成新的随机文本

计数词汇

函数len

`len(text1)`    #文本中出现的词和标点符号,从文本头到尾的长度

这里写图片描述
使用len()函数获取的是文本所有的标识符,其中有大量的重复成分,如何获取文本中的词汇数?

函数set

sorted(set(text1)) #获取文本text1的词汇表,并按照英文字母排序
len(set(text1)) #获取文本text1词汇表的数量(词类型)
这里写图片描述
注意set方法不能将文本中的标点符号过滤掉,其中包含了标点符号

标识符的平均使用次数

len(text1)/len(set(text1)) #词汇总数量/词汇表数量
这里写图片描述

特定词的出现次数及占比

text3.count("smote") #单词smote在文本中出现次数
100 * text3.count("smote") / len(text3) #获取单词的占比

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值