TF-IDF算法

最新推荐文章于 2024-06-13 23:22:01 发布

古古月月

最新推荐文章于 2024-06-13 23:22:01 发布

阅读量418

点赞数

分类专栏： python 文章标签：算法自然语言处理

本文链接：https://blog.csdn.net/qq_39773424/article/details/120119827

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

TF:term frequency短期频率，用于衡量一个词，在一个文档中出现的频率。因为词出现的次数和文档大小也直接相关，所以词频通常是一个词出现的次数除以文档的总长度，相当于归一化操作，公式：

TF(t) = 词t在某个文档中出现的总次数 / 该文档的总词数

IDF：inverse document frequency逆向文件频率，用于衡量一个词的重要性/区分度。计算词频TF的时候，所以的词都同等对待。但是某些词，比如一些介词和连词等等，可能出现很多次，但是根本不重要。因此我们要减轻多个文档中都频繁出现的词的权重。字词的重要性随着它在文件中出现的次数正比增加，但与语料库中出现的频率成反比。公式：

IDF = ln(总文档数 / 词 t 出现的文档数)

TF-IDF(term frequency-inverse document frequecy) = TF * IDF

用途：主要用于评估一个词对一个文档集或者语料库中的重要程度。TF-IDF加权的各种形式常被用于搜索引擎应用，作为文件与用户查询之间的相关程度的度量。

tags = jibes.analyze.extract_tags(sentence,topk=20,withWeight=False,allowPOS=())
“””
Sentence为待提取的文本
topk为返回几个TF/IDF权重最大的关键词，默认为20
withWeight为是否一并返回关键词权重值，默认为False
allowPOS是仅包括指定词性的词，默认值为空，即不筛选。
jieba.analyse.TFIDF(idf_path=None)新建TFIDF实例，idf_path为IDF频率文件
idf的值是jieba通过语料库统计得到的，所以实际使用时，可能需要依据使用环境，替换为使用对应的语料库统计得到idf值。
“”“

#关键词提取所使用逆向文件频率（idf）文本语料库以及所使用的停用词可以切换成自定义的
jieba.analyse.set_idf_path(file_name)
jieba.analyse.set_stop_words(file_name)
for word,weight in jiebas.analyse.extract_tags(sentence,withWeight=True):
    print(word,weight)


#当然，如果是直接open一个文件也可以：
sentence = open(“path”,”rb”,encoding=“utf-8”).read()

古古月月

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TF-IDF算法

TF:term frequency短期频率，用于衡量一个词，在一个文档中出现的频率。因为词出现的次数和文档大小也直接相关，所以词频通常是一个词出现的次数除以文档的总长度，相当于归一化操作，公式：TF(t) = 词t在某个文档中出现的总次数 / 该文档的总词数IDF：inverse document frequency逆向文件频率，用于衡量一个词的重要性/区分度。计算词频TF的时候，所以的词都同等对待。但是某些词，比如一些介词和连词等等，可能出现很多次，但是根本不重要。因此我们要减轻多个文档中都频..
复制链接

扫一扫