25.TF&IDF算法以及向量空间模型算法

最新推荐文章于 2020-08-22 17:29:29 发布

anlanmo0960

最新推荐文章于 2020-08-22 17:29:29 发布

阅读量550

点赞数

文章标签： python java

原文链接：http://www.cnblogs.com/liuqianli/p/8527702.html

版权

主要知识点：

boolean model
IF/IDF
vector space model

一、boolean model

在es做各种搜索进行打分排序时，会先用boolean model 进行初步的筛选，boolean model类似and这种逻辑操作符，先过滤出包含指定term的doc。must/must not/should（过滤、包含、不包含、可能包含）这几种情况，这一步不会对各个doc进行打分，只分过滤，为下一步的IF/IDF算法筛选数据。

二、TF/IDF

这一步就是es为boolean model过滤出来的doc进行打分，但是这一步也只是单个term在doc中的分数。现假如：

query: hello world

doc1: java is my favourite programming language, hello world !!!

doc2: hello java, you are very good, oh hello world!!!

hello对doc1的评分

TF: term frequency

找到hello在doc1中出现了几次，1次，会根据出现的次数给个分数

一个term在一个doc中，出现的次数越多，那么最后给的相关度评分就会越高

IDF：inversed document frequency

找到hello在所有的doc中出现的次数，3次

一个term在所有的doc中，出现的次数越多，那么最后给的相关度评分就会越低

length norm

hello搜索的那个field的长度，field长度越长，给的相关度评分越低; field长度越短，给的相关度评分越高

最后，会将hello这个term，对doc1的分数，综合TF，IDF，length norm，计算出来一个综合性的分数

3、vector space model

我们在做搜索时，搜索条件中可能会有多个term，es出来的分数结果也是对多个term的综合分数，多个term对一个doc的总分数的计算，在es中使用的是vector space model(空间向量模型），这个模型的算法很复杂，我们在使用es时不需要知道这种算法，只需要知道综合分数是由灾这种模型计算得出的就行。

转载于:https://www.cnblogs.com/liuqianli/p/8527702.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
25.TF&IDF算法以及向量空间模型算法

主要知识点： boolean modelIF/IDFvector space model一、boolean model 在es做各种搜索进行打分排序时，会先用boolean model 进行初步的筛选，boolean model类似and这种逻辑操作符，先过滤出包含指定term的doc。must/must not/should（过滤、包含、不包...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。