TF-IDF:网页和某个查询的相关性
计算
TF:
关键词的频率 、单文本词汇频率 Term Frequency
衡量关键词在单个网页中出现的频率。
关键词的次数/单个网页的总字数(去掉应删除词(stopwords))。
IDF:
逆文本频率指数 Inverse document frequency
衡量一个词在整个文档集(所有网页)中的权重。
Log(D/Dw) ,一个关键词w在Dw个网页中出现过,D是全部网页数。Log=ln
一个查询的TF-IDF=TF1*IDF1+TF2*IDF2+……+TFN*IDFN,其中TF1为查询词1对网页的TF值,IDF1对一个查询词针对所有结果的IDF
一个单词的TF-IDF=TF*IDF
通过以上定义我们可以看到:
TF-IDF主要作用是衡量一个网页和某个查询的相关性,适用范围为搜索结果的排序。
TF只是衡量了关键词在一个网页中的出现频率。
IDF则衡量了关键词在整个文档集中的权重。
如果一个词在某一个网页中出现的频率高,它又在整个文档集中占有比较高的权重,显然,这个词重要,权重比较大。也就是说这个词的TF-IDF积比较大。
这样以来,单个网页与查询的相关性其实就是一个查询中的各关键词的TF-IDF的求和。
针对一个关键词的TF-IDF来说,可以它用来衡量关键词在单个网页中权重。