NLP--jieba(关键词提取（TFIDF/TextRand）)

最新推荐文章于 2024-09-24 11:38:00 发布

lgy54321

最新推荐文章于 2024-09-24 11:38:00 发布

阅读量4.4k

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/lgy54321/article/details/90670902

版权

本文介绍了使用jieba库进行关键词提取的方法，重点讲解了基于TF-IDF和TextRank算法的关键词抽取。TF-IDF考虑了词频和逆文档频率，而TextRank则基于词之间的共现关系。此外，还提到了词性标注、并行分词和Tokenize的功能。

摘要由CSDN通过智能技术生成

关键词提取–TFIDF

词频（Term Frequency，缩写为TF）：出现次数最多的词
在这里插入图片描述
如果某个词比较少见，但是它在这篇文章中多次出现，
那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。
“逆文档频率”（IDF）

TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- sentence 为待提取的文本
- topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
- withWeight 为是否一并返回关键词权重值，默认值为 False
- allowPOS 仅包括指定词性的词，默认值为空，即不筛选

import jieba
import jieba.analyse as analyse

lines=open('NBA.txt',encoding='utf-8').read()
print ("  ".join(analyse.extract_tags(lines, topK=20, withWeight=False, allowPOS=())))
韦少  杜兰特  全明星  全明星赛  MVP  威少  正赛  科尔  投篮  勇士 
球员  斯布鲁克  更衣柜  张卫平  三连庄  NBA  西部  指导  雷霆  明星队