1.概述
Apache Lucene 8在几周前发布,有许多令人兴奋的新特性和改进。以下是其中的一些亮点:
2.查询快捷键
在Lucene 7中执行搜索时,得分代码将访问与查询匹配的每个文档,生成得分最高的k个条目和匹配的文档数量的准确计数。在许多情况下,准确的计数是不必要的,对于匹配大量文档的查询,需要花费大量时间来计数和评分那些最终不会出现在最热门的文档。Lucene 8引入了一个新的API,允许你选择不进行这个计数,而是返回匹配的文档数量的下限。这允许引入许多快捷方式,加速查询执行。
3. 索引的影响
发起所有这些查询加速的想法最早是在2012年提出的,涉及到向索引中添加新信息,使计算文档块的最大分数成为可能。
一般来说,对任何给定查询的文档得分起作用的值可以分为全局因素(如总词汇频率或平均文档长度)和每个文档每个词汇因素(称为影响)。它们的形式为一对数字、文档的长度(压缩为单个字节,称为“规范”)以及该文档中术语的频率。
L