jieba-基于 TF-IDF 算法的关键词抽取

最新推荐文章于 2024-09-24 11:38:00 发布

Atishoo_13

最新推荐文章于 2024-09-24 11:38:00 发布

阅读量6k

点赞数 5

分类专栏： Python 文章标签： Python jieba TF-IDF 关键词实现

本文链接：https://blog.csdn.net/Atishoo_13/article/details/86565771

版权

本文介绍了如何利用jieba的TF-IDF算法进行关键词抽取，包括设置自定义IDF文本语料库、停用词库，以及返回关键词及其权重值的步骤，并提供了相关代码示例。

摘要由CSDN通过智能技术生成

jieba-基于 TF-IDF 算法的关键词抽取

通过上述三篇文章的介绍（详见其他的博客），接下来将对TF-IDF算法的实现进行介绍。

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- sentence 为待提取的文本
- topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
- withWeight 为是否一并返回关键词权重值，默认值为 False
- allowPOS 仅包括指定词性的词，默认值为空，即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

关键词提取的代码如下：

import sys
sys.path.append('../')

import jieba
import jieba.analyse
from optparse import OptionParser

USAGE = "usage:    python extract_tags.py [file name] -k [top k]"

parser = OptionParser(USAGE)
parser.add_option("-k", dest="topK")
opt, args = parser.parse_args()


if len(args) < 1:
    print(USAGE)
    sys.exit(1)

file_name = args[0]

if opt.topK is None:
    topK = 10
else:
    topK = int(opt.topK)

content = open(file_name, 'rb').read()

tags = jieba.analyse.extract_tags(content, topK=topK)

print(",".join(tags)