Lucene Scoring Algorithm -- Lucene 分数 计算 算法

Lucene Scoring结合使用信息检索的向量空间模型和布尔模型来决定一个文档对于用户输入查询的相关性。

Vector Space Model(向量空间模型)Information Retrieval(信息检索) Boolean Model(buer模型)

VSM(Vector Space Model)的主要思想:

VSM是一个将文本文档(任意对象)作为标示符向量来表现的一种代数模型。

每个词条与一个维度一致,如果一个词条在向量中出现,那么它在向量中的值就为非零值。计算这些值有很多种方式,熟知的是(term)weights,最知名的是tf-idf weighting。term的定义取决于应用,一般term指单独的词语,单建字或长句子。

查询词条在一个文档中出现的次数相对于其他文档更多,此文档对于查询词条相关度越高。首先使用Boolean模型缩小需要计算分数的文档范围,核心基于VSM系统。

Lucene Scoring 会使用如下几条规则:

tf-idf模型

tf:Term Frequency(词条频度)

idf:Inverse Document Frequency。词条在所有Document中越稀缺,它对分数贡献越高。

coord:Coordination Factor。Document出现的查询词条越多,它的分数越高。

field norm:Field Length。域长度越大,分数越低。

See You.....


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值