基本方法:关键词出现频率
对查询切词,网页中包含的词越多,就越相关。考虑到长文本比短文本有优势,根据网页的长度对关键词出现的次数进行归一化:关键词的频率(term frequency)=关键词的次数/网页总字数。
举例:
一共有一千词的网页中“原子能”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“原子能的应用”相关性的一个简单的度量。
概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1,TF2, ..., TFN。 (TF: term frequency)。那么,这个查询和该网页的相关性就是:
TF1 + TF2 + ... + TFN。
改进1:关键词赋权
1.去停用词后再评估
2.给分词后的term赋权:一个词预测主题的能力越强,权重越高,例如:“原子能”能帮助理解主题;停用词的权重为0。
改进2:逆文本频率
假定一个关键词 w 在 Dw个网页中出现过,那么 Dw 越大,w的权重越小。
逆文本频率指数(Inverse document frequency 缩写为IDF):log(D/Dw)其中D是全部网页数。
举例:
假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw=10亿,那么它的IDF=log(10 亿/10 亿)= log (1) = 0。假如专用词“原子能”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重IDF = log(2)=0.7
使用TF/IDF计算相关性。