结巴分词中TFIDF的原理

最新推荐文章于 2024-08-31 17:04:20 发布

anqiu4023

最新推荐文章于 2024-08-31 17:04:20 发布

阅读量1.6k

点赞数 2

原文链接：http://www.cnblogs.com/zle1992/p/8822832.html

版权

本文详细介绍了TF-IDF的概念和原理，以及在结巴分词中如何应用于关键词提取。TF-IDF是一种统计方法，用于评估词语在文件中的重要性。在结巴分词中，TF-IDF结合了词语在文件中的频率和在整个语料库的频率，用于提取关键信息。结巴分词自带的idf文件提供了词语的IDF值，对于未在idf文件中的词语，其IDF值可能取平均值。

摘要由CSDN通过智能技术生成

之前了解TFIDF只是基于公式，今天被阿里面试官问住了，所以深入讨论下TFIDF在结巴分词中原理。

概念

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

原理

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化（分子一般小于分母区别于IDF），以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）

　　逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

　　某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TFIDF的主要思想是：如果某个词或短语在一篇文