《数学之美》第11章—如何确定网页和查询的相关性（TF-IDF算法）-CSDN博客

本文深入探讨了TF-IDF算法在信息检索领域的应用，详细解释了如何通过计算词频和逆文档频率来评估文档与查询的相关性，以及如何优化搜索结果的排序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

如何查找关于“原子能的应用”的网页？

大致思路

第一步，在索引中找到包含这三个词的网页（这大约能返回千万以上个结果）
第二步，给这些网页排序：
- 1）把网页本身质量好的排在前面（Page Rank 算法）
- 2）与查询关键词“原子能应用”相关性高的网页排在前面（TF-IDF 算法）

问题描述

如何度量查询（query）与网页的相关性？

解决过程

一、使用“总词频”

“原子能的应用”可以分为三个关键词“原子能、的、应用”。

1、直觉上，关键词出现次数较多的网页应该比出现较少的网页相关性高；

2、 存在问题：那就是篇幅长的网页比篇幅短的网页占便宜，长的网页其包含地关键词更多一些；

3、所以，需要根据网页的长度，对关键词的次数进行归一化： **
- 用关键词的次数除以网页的总词数——即关键词的频率【Term Frequency】**

所以，当一个查询包含N个关键词 $w_1,w_2,w_3,...,w_N$ ,他们在一个特定网页中的词频分别为： $TF_1,TF_2,TF_3,...,TF_N$ ,那么这个查询和该网页的相关性（相似度）就是各个关键词在网页中的总词频：
$TF_1+TF_2+...+TF_N$

二、加入IDF权重

4、 存在问题：
1） “停止词 Stop Word”（的，是，地，和…），在总词频中占比会非常高，并且其对确定网页主题几乎没有什么用，所以在度量相关性的时候不应该考虑他们的词频；
2）“通用词”与“专用词”（应用与原子能），在相关性排序中各自的重要程度又不相同；

5、所以，需要对每一个词赋予一个权重，其满足以下条件
1）一个词预测主题的能力越强，权重越大，反之权重越小；
2）停止词的权重为 0 ；

6、信息检索中，“逆文本频率指数”（Inverse Document Frequency）:
$log(\frac{D}{D_i})$
$D_w$ 表示关键词 $w$ 出现在不同网页的次数， $D$ 表示全部网页数目。如果一个关键词大量出现在网页中，就是看到它仍然不会清楚要找什么内容，其对应的权重越小；如果出现在很少的网页，通过它就很容易锁定目标，权重也就应该很大。