此文章是个人在学习nltk.text模块的过程中的一个总结,难免有瑕疵的地方,欢迎大家参与讨论,感谢你的善良。
1.collocation_list
####这一段为模板代码下面的函数就省略了
import nltk.corpus
from nltk.text import Text
mytext = Text(nltk.corpus.gutenberg.words('melville-moby_dick.txt'))
####这一段为模板代码 下面的代码就不再重复了
作用:返回从文本派生的搭配词(连在一起的词),忽略停用词。
用法: def collocation_list(self, num=20, window_size=2):
:param num: 返回的搭配词的最大数量
:type num: int
:param window_size: 搭配所跨越的令牌数 (default=2)
:type window_size: int
例子:
mytext.collocation_list()
结果展示:
这里做一点补充:“搭配词”(collocation)通俗理解就是在一段文字中,相邻经常搭配的词语。而停用词(stopword)举个英文的例子,即:
以上结果就是停用词,大家可以自行对照到中文是啥意思哈。
2. collocations(有bug)
注释(这个方法nltk 3.4.5 有bug,先不管他了,collocation