nltk(1)——常用函数

最新推荐文章于 2025-03-01 09:26:29 发布

江中舟

最新推荐文章于 2025-03-01 09:26:29 发布

阅读量2.4k

点赞数

分类专栏：自然语言处理文章标签： NLTK 常用函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qfnu_cjt_wl/article/details/50759030

版权

自然语言处理专栏收录该内容

9 篇文章

订阅专栏

搜索文本

关键词上下文——concordance

使用函数concordance可以查找关键词每次的出现，以及连同关键词出现的上下文一起显示。(查看关键词出现的上下文)
from nltk.book import * text1.concordance("monstrous")
这里写图片描述

相似上下文查找——similar

使用similar函数可以看到同关键词出现在相似的上下文中的词，即查找近义词
text1.similar("monstrous") #查找monstrous的近义词，出现在相似的上下文中的词
这里写图片描述

共同上下文——common_contexts

函数common_contexts允许研究两个或两个以上的词共同的上下文。
text2.common_contexts(["monstrous","very"])
这里写图片描述
注意此处的多个单词须要使用[]括起来

生成随意文本——generate

`text3.generate()`    #基于文章生成新的随机文本

计数词汇

函数len

`len(text1)`    #文本中出现的词和标点符号，从文本头到尾的长度

这里写图片描述
使用len()函数获取的是文本所有的标识符，其中有大量的重复成分，如何获取文本中的词汇数？

函数set

sorted（set(text1)） #获取文本text1的词汇表，并按照英文字母排序
len(set(text1)) #获取文本text1词汇表的数量（词类型）
这里写图片描述
注意set方法不能将文本中的标点符号过滤掉，其中包含了标点符号

标识符的平均使用次数

len(text1)/len(set(text1)) #词汇总数量/词汇表数量
这里写图片描述

特定词的出现次数及占比

text3.count("smote") #单词smote在文本中出现次数 100 * text3.count("smote") / len(text3) #获取单词的占比
这里写图片描述

博客等级

码龄13年

55
原创

32
点赞

104
收藏

46
粉丝

关注

私信

热门文章

分类专栏

java 28篇
C++
php 1篇
web 7篇
MySQL 4篇
NXP 2篇
linux 9篇
Ubuntu 1篇
tomcat 1篇
java随笔 1篇
Oracle 3篇
hibernate 1篇
算法 1篇
theano 1篇
深度学习 2篇
特征选择 1篇
卡方检测 1篇
自然语言处理 9篇
word2vec 1篇

展开全部收起

最新评论

浅谈电商类目预测
weixin_45120058: 我想问一下计算词与类目的重要性，你给的图片里面后面的值算出来是2点多，这个数是怎么算的
mysql中的top语句
weixin_45961022: select *from users limit 0,4; 是从第0条开始选择4条数据，包含第0条，应该一共是四条数据
特征选择-卡方检测
毛球饲养员: 应该是M
特征选择-卡方检测
一座青山: 其中“体育”类新闻样本M。--> 其中“体育”类新闻样本N。 ???
浅谈电商类目预测
LuckyOne_: 想问下“也可以通过query下用户的类目点击，统计分析得到query最相关的类目，人工审核后确定一一对应关系。”这个功能是通过数据埋点能实现吗最近公司在做这块之前没有经验

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。