ElasticSearch--相关度背后的理论

TF/IDF

词频(TF)

其实就是一个词在一篇文章中出现的频率在开平方,频率越高,说明这个词在这篇文章中的权重越高

IDF

idf(word) = 1+log(numDocs/(docFreq +1))
numdocs是所有文档的数量,docFreq 是包含有word的文档的数量。可以看出当docFreq越大,则IDF越小,例如像the这样的词,几乎每篇文章里都有,所以这样的词权重就很低

Field-length norm

可以想象,如果文档的长度越小,那么某个词在这个文档中的权重就越高。Field-length norm
的计算方法
norm(d) = 1/sqrt(numTerms)
在全文索引中Filed-length norm是很重要的,而其他类型的检索可能不需要field-length norm。对于每个string field norms大约消耗一个字节的存储容量,所以当我们不需要全文索引,仅仅是查找关键词的时候,不要norms功能可以节省不少的存储空间。

将上述参数合起来

上述的三个因素—词频(TF),逆向文件频率(IDF)和filed-length norm, 实在在索引时间计算和保存的。这些被用来计算一个单词在某个特定文档中的权重。

向量空间模型

当然我们在索引文件的时候并不是单单用一个单词,当我们用多个词来搜索某个文件的时候怎么办呢?
这时候我使用向量空间模型。一个向量中的每一个数字是一个单词在这个文档中的权重(用TF/IDF计算的)。
首先先计算查询字符串的对于每个词的权重向量,然后再计算文档的向量。然后再用余弦定理计算两个文档向量的距离d,d越接近于1说明访问字符串和这个文档的相关度越高。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值