提到各种搜索引擎算法,很是枯燥,大家似乎更关心,网站如何可以快速获取流量???
算了,反正我也解答不了这个问题,还是继续写我的搜索引擎算法解读系列吧!!!
回到正题,搜索引擎的目标是为用户提供:更全、更快、更准的搜索结果,那么今天要讲到的tf-idf算法,就是“更准”这一环节。
注:有些人问过,为什么讲的算法或者好几个算法,都有可能是解决一个环节?比如“更准”这里。
话说搜索引擎对网站排名可能有几百个影响因素,为了更大限度取得“更准”结果,肯定是多角度、多方面的综合判断,而不是单一的因素吧??
一、IF-IDF算法是什么?
“IF-IDF(英语:term frequency–inverse document frequency(词频-逆向文档频率))是一种用于信息检索与文本挖掘的常用加权技术。
IF-IDF是一种统计方法,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。
字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。”——维基百科
好吧,这不是什么高大上的东西,简单而言,IF-IDF算法就是统计出一篇文章出现次数最多的词,并对这些词做一个加权处理,从而得知这篇文章的“中心主题”是什么。
如果还是无法理解,请往下看。
二、TF-IDF算法计算公式
维基百科上提到过,TF(term frequency)是词频的英文单词缩写,词频