关键词提取–TFIDF
词频(Term Frequency,缩写为TF):出现次数最多的词
如果某个词比较少见,但是它在这篇文章中多次出现,
那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
“逆文档频率”(IDF)
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比
基于 TF-IDF 算法的关键词抽取
import jieba.analyse
- jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- sentence 为待提取的文本
- topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
- withWeight 为是否一并返回关键词权重值,默认值为 False
- allowPOS 仅包括指定词性的词,默认值为空,即不筛选
import jieba
import jieba.analyse as analyse
lines=open('NBA.txt',encoding='utf-8').read()
print (" ".join(analyse.extract_tags(lines, topK=20, withWeight=False, allowPOS=())))
韦少 杜兰特 全明星 全明星赛 MVP 威少 正赛 科尔 投篮 勇士
球员 斯布鲁克 更衣柜 张卫平 三连庄 NBA 西部 指导 雷霆 明星队