#分页后拿到总记录数
searchHits.getTotalHits()
ES倒排索引
把文档D对应到关键词的映射转换为关键词到文档ID的映射,每个关键词都对应着一系列的文档,这些文档中都出现这个关键词。
带有单词频率、文档频率和出现位置信息的倒排索引
倒排表的压缩算法-FOR(Frame Of Reference)
倒排索引中采取的方案
(1)无损压缩,文档编号重排序后用压缩算法进行压缩:确保在倒排表中相邻的两个文档的文档编号也相邻,这样D-Gap值也较小。希望内容越相似的文档其文档编号也越相似。 例子:包含“百度”的文档冲排序为文档编号相邻的文档,则创建“百度”倒排表时候,相邻的差值(D-Gap)则较小。百度-----D-Gap{1,4,9} 转化为 百度------D-Gap{1,1,1}, 要压缩的原始数据值变小,则获得较高的压缩率。 文档编号重新排序,可以依靠按照某些主题词来聚类,将同一个类的文档编号排成相邻的。
(2)有损压缩,静态索引裁剪:将不重要的索引项从倒排索引中