python 搜索引擎 词位置加权_搜索引擎算法之TF-IDF算法

提到各种搜索引擎算法,很是枯燥,大家似乎更关心,网站如何可以快速获取流量???

算了,反正我也解答不了这个问题,还是继续写我的搜索引擎算法解读系列吧!!!

回到正题,搜索引擎的目标是为用户提供:更全、更快、更准的搜索结果,那么今天要讲到的tf-idf算法,就是“更准”这一环节。

注:有些人问过,为什么讲的算法或者好几个算法,都有可能是解决一个环节?比如“更准”这里。

话说搜索引擎对网站排名可能有几百个影响因素,为了更大限度取得“更准”结果,肯定是多角度、多方面的综合判断,而不是单一的因素吧??

一、IF-IDF算法是什么?

“IF-IDF(英语:term frequency–inverse document frequency(词频-逆向文档频率))是一种用于信息检索与文本挖掘的常用加权技术。

IF-IDF是一种统计方法,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。

字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。”——维基百科

好吧,这不是什么高大上的东西,简单而言,IF-IDF算法就是统计出一篇文章出现次数最多的词,并对这些词做一个加权处理,从而得知这篇文章的“中心主题”是什么。

如果还是无法理解,请往下看。

二、TF-IDF算法计算公式

维基百科上提到过,TF(term frequency)是词频的英文单词缩写,词频

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值