#分页后拿到总记录数
searchHits.getTotalHits()
ES倒排索引
把文档D对应到关键词的映射转换为关键词到文档ID的映射,每个关键词都对应着一系列的文档,这些文档中都出现这个关键词。

带有单词频率、文档频率和出现位置信息的倒排索引

倒排表的压缩算法-FOR(Frame Of Reference)
倒排索引中采取的方案
(1)无损压缩,文档编号重排序后用压缩算法进行压缩:确保在倒排表中相邻的两个文档的文档编号也相邻,这样D-Gap值也较小。希望内容越相似的文档其文档编号也越相似。 例子:包含“百度”的文档冲排序为文档编号相邻的文档,则创建“百度”倒排表时候,相邻的差值(D-Gap)则较小。百度-----D-Gap{1,4,9} 转化为 百度------D-Gap{1,1,1}, 要压缩的原始数据值变小,则获得较高的压缩率。 文档编号重新排序,可以依靠按照某些主题词来聚类,将同一个类的文档编号排成相邻的。
(2)有损压缩,静态索引裁剪

本文介绍了Elasticsearch(ES)的倒排索引原理,包括倒排表的压缩算法FOR,以及正向索引与倒排索引的优缺点。同时探讨了在海量数据查询时为何倒排索引能提高效率,并概述了ES的版本演进历史。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



