关键词权重计算算法 - TF-IDF

最新推荐文章于 2024-07-30 18:04:32 发布

hyman_yx

最新推荐文章于 2024-07-30 18:04:32 发布

阅读量2.9w

点赞数 5

分类专栏： Search Engine 文章标签：搜索引擎技术算法

本文链接：https://blog.csdn.net/hyman_yx/article/details/51745920

版权

TF-IDF是一种用于文本相似度计算的统计方法，它结合了词频（TF）和逆文档频率（IDF）。TF衡量词语在文档中的重要性，IDF则评估词语在整个文档集中的稀有程度。在向量空间模型中，TF-IDF常与余弦相似性一起用于文件间的相似度比较。尽管TF-IDF有一定的局限性，如未考虑单词位置信息，但它依然是搜索引擎和信息检索领域的基础工具。

摘要由CSDN通过智能技术生成

公司的文本搜索引擎一直用的是Lucene，自己也一直有学习Lucene，但对文本相似度算法没有过多的深入学习。最近在做基于Deep Learning的图像搜索引擎，需要对图像进行相似度排序，刚好借着跑数据要几个小时的时间来学习下TF-IDF。

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

原理

TF-IDF实际上是：TF * IDF。主要思想是：如果某个词或短语在一篇文章中出现的频率高（即TF高），并且在其他文章中很少出现（即IDF高），则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF（Term Frequency，词频）表示一个给定词语t在一篇给定文档d中出现的频率。TF越高，则词语t对文档d来说越重要，TF越低，则词语t对文档d来说越不重要。那是否可以以TF作为文本相似度评价标准呢？答案是不行的，举个例子，常用的中文词语如“我”，“了”，“是”等，在给定的一篇中文文档中出现的频率是很高的，但这些中文词几乎在每篇文档中都具有非常高的词频，如果以TF作为文本相似度评价标准，那么几乎每篇文档都能被命中。

IDF（Inverse Document Frequency，逆向文件频率）的主要思想是：如果包含词语t的文档越少