Python自然语言处理 nltk.text模块下Text对象的各个函数(入门函数)用法分享

本文详细介绍了Python自然语言处理库nltk.text模块中Text对象的各种函数,包括collocation_list、common_contexts、concordance等,用于处理文本中的搭配词、上下文、频率分布等。通过实例展示了每个函数的用法和效果。
摘要由CSDN通过智能技术生成

此文章是个人在学习nltk.text模块的过程中的一个总结,难免有瑕疵的地方,欢迎大家参与讨论,感谢你的善良。

1.collocation_list

####这一段为模板代码下面的函数就省略了
import nltk.corpus
from nltk.text import Text
mytext = Text(nltk.corpus.gutenberg.words('melville-moby_dick.txt'))
####这一段为模板代码 下面的代码就不再重复了 

作用:返回从文本派生的搭配词(连在一起的词),忽略停用词。
用法: def collocation_list(self, num=20, window_size=2):
:param num: 返回的搭配词的最大数量
:type num: int
:param window_size: 搭配所跨越的令牌数 (default=2)
:type window_size: int
例子:

 mytext.collocation_list()

结果展示: 在这里插入图片描述
这里做一点补充:“搭配词”(collocation)通俗理解就是在一段文字中,相邻经常搭配的词语。而停用词(stopword)举个英文的例子,即:
在这里插入图片描述

以上结果就是停用词,大家可以自行对照到中文是啥意思哈。

2. collocations(有bug)
注释(这个方法nltk 3.4.5 有bug,先不管他了,collocation

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值