25.TF&IDF算法以及向量空间模型算法

主要知识点:

  • boolean model
  • IF/IDF
  • vector space model

   

一、boolean model

   

在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定termdocmust/must not/should(过滤、包含、不包含 、可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据。

   

二、TF/IDF

   

这一步就是esboolean model过滤出来的doc进行打分,但是这一步也只是单个termdoc中的分数。现假如:

   

query: hello world

doc1: java is my favourite programming language, hello world !!!

doc2: hello java, you are very good, oh hello world!!!

   

hellodoc1的评分

   

TF: term frequency

   

找到hellodoc1中出现了几次,1次,会根据出现的次数给个分数

一个term在一个doc中,出现的次数越多,那么最后给的相关度评分就会越高

   

IDFinversed document frequency

   

找到hello在所有的doc中出现的次数,3

一个term在所有的doc中,出现的次数越多,那么最后给的相关度评分就会越低

   

length norm

   

hello搜索的那个field的长度,field长度越长,给的相关度评分越低; field长度越短,给的相关度评分越高

   

最后,会将hello这个term,对doc1的分数,综合TFIDFlength norm,计算出来一个综合性的分数

   

3vector space model

   

我们在做搜索时,搜索条件中可能会有多个term,es出来的分数结果也是对多个term的综合分数,多个term对一个doc的总分数的计算,在es中使用的是vector space model(空间向量模型),这个模型的算法很复杂,我们在使用es时不需要知道这种算法,只需要知道综合分数是由灾这种模型计算得出的就行。

转载于:https://www.cnblogs.com/liuqianli/p/8527702.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值