做为SEO行业老鸟应该听说过TF-IDF算法,TF-IDF算法属于搜索引擎中的核心部分。TF-IDF算法是增加相关词的覆盖率,以及高优布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取超高分值。
最近在码迷网有几篇TF-IDF算法原理及公式本文将深入为大家解析,有兴趣请往下深度阅读。
一,什么是TF-IDF
先来看百度百科对TF-IDF的解释:
“TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。”
133753.jpgTF-IDF算法公式
大家看了定义之后跟我一样是懵的吧,为了便于大家理解,作者再举一个简单易懂的栗子。
假如说我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面5个,你觉得哪个内容排名第一?
内容1: 水果有水果,水果,水果,水果,水果
内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
内容3: 蔬菜都很好吃,我最爱吃茄子了
内容4: 苹果,梨子都是很好吃的水果
内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
相信很多人心里面有了答案,大家凭直觉,内容2 跟 内容5 应该排名靠前,内容5很可能是第1,内容2是排名第2。
其实按照TF-IDF算法也能得出这个结论,那么TF-IDF是怎么做的,请大家跟上我的步伐。
二,TF-IDF算法的计算步骤
第1步:计算逆文档频率
我们先统计各个词语被包含的文章数。比如“水果”被4篇文章(内容1、2、4、5)引用,4就是“水果”的逆文档频率。
分词后,各个单词的逆文档频率如下:
水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1计算逆文档频率
TF-IDF算法原理
PS: IDF= log(语料库中的文件