jieba库源代码分析——TextRank 算法与TF-IDF算法的对比

本文分析了jieba库中的TextRank和TF-IDF算法,这两种算法都用于关键词提取。TF-IDF基于词频和逆文档频率评估词的重要程度,而TextRank则更多考虑词的共现。在使用时,应根据需求选择合适的算法。
摘要由CSDN通过智能技术生成

2021SC@SDUSC
2021SC@SDUSC
在python的jieba库中除了我们之前分析的TextRank算法以外,还有一种算法也用于提取关键词,即TF-IDF算法。
2021SC@SDUSC
TF-IDF算法(词频-逆文本频率)是一种用以评估字词在文档中重要程度的统计方法。它的核心思想是,如果某个词在一篇文章中出现的频率即TF高,并且在其他文档中出现的很少,则认为这个词有很好的类别区分能力。
主要运用以下公式:
在这里插入图片描述
其中:
在这里插入图片描述
在这里插入图片描述
这篇博文就来简单地对TF-IDF的关键算法进行分析,从而与之前几篇的TextRank算法做对比。
TFIDF类在初始化时,默认加载了分词函数tokenizer = jieba.dt、词性标注函数postokenizer = jieba.posseg.dt、停用词stop_words = self.STOP_WORDS.copy()、idf词典idf_loader = IDFLoader(idf_path or DEFAULT_IDF)等,并获取idf词典及idf中值(如果某个词没有出现在idf词典中,则将idf中值作为这个词的idf值)。

def extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值