第11章 如何确定网页和查询的相关性
-
几个概念:
- 关键词的频率/单文本词频(Term Frequency,TF):关键词次数除以网页的总字数。
- 停止词(Stop Word):度量时不需要考虑的词。例如中文的“的,和,中”等。
- 逆文本频率指数(Inverse Document Frequency,IDF): I D F = l o g ( D / D w ) IDF=log(D/D_{w}) IDF=log(D/Dw) ,其中 D D D是全部网页数,而 D w D_{w} Dw是关键词出现过的网页数。作为每个搜索关键词的权重。(例如“原子能的应用”中,“原子能”的权重需要更高,而“的”以及“应用”的权重应该更低。假定所有网页数量 D = 100 D=100 D=100,而“的”在所有网页中都出现,那么他的 I D F = l o g ( 100 / 100 ) = 0 IDF=log(100/100)=0 IDF=log(100/100)=0,而假设“原子能”出现次数为20,那么它的权重就是 I D F = l o g ( 100 / 20 ) = 0.6989 IDF=log(100/20)=0.6989 IDF=log(100/20)=0.6989)
- 所谓的IDF,其实就是给定一个特殊条件下关键词的概率分布的交叉熵。
-
相关性计算公式变为:TF-IDF