解密sphinx索引速度为什么是LUCENE索引速度的10倍这么大的差距

最新推荐文章于 2019-08-14 10:55:00 发布

坚持原则的代码工

最新推荐文章于 2019-08-14 10:55:00 发布

阅读量110

点赞数

文章标签： java 数据结构与算法

LUCENE索引结构是以2叉树为基础的B树倒排结构，这决定了索引数据时要维护2叉树为基础的B树倒排结构，例如查找并增量，将耗费一定的时间消耗，其时间复杂度为O（LOGN），而sphinx是以HASH哈希树为基础的倒排结构，其时间复杂度为O（1），所以随着数据的增多，LUCENE索引树的维护将超过sphinx索引树的维护。导致sphinx索引速度是LUCENE索引速度的10倍这么大的差距。

北京-普通人(409031406) 22:58:26
你用过sphinx？
横瓜(601069289) 23:10:08
我写过横瓜搜索,一个类似LUCENE全新的搜索，写的代码接近百万行吧,最清楚索引效率的瓶口所在。

北京-普通人(409031406)23:20:18
有啥区别
横瓜(601069289)23:21:43
搜索用的哈希与计算机课本上的哈希,有很大差别，sphinx只能说用的类哈希算法，与计算机课本上的哈希,有很大差别

Phil(545075328)23:22:55
你说得类哈希是指什么
北京-普通人(409031406)23:23:40
讲清楚就行了
Phil(545075328)23:24:17
采用不同的冲突消解策略什么就差不多了
横瓜(601069289)23:25:03
类哈希:sphinx要考虑存储和查询,sphinx要考虑空间效率和时间效率的平衡,那么sphinx用的哈希,已经是混合算法了.但是计算机课本上的哈希是sphinx的基础.

附：Lucene 倒排序索引原理

Lucene 倒排序索引原理

Lucene是apache软件基金会[4] jakarta项目组的一个子项目，是一个高性能的java全文检索框架。lucene索引结构中最核心的部分是倒排序索引。

用一个例子描述一下倒排序。
假设有两篇文章：

文章1的内容是：共和国。

文章2的内容是：中国。

1、Lucene在建立索引前先通过分词器找出文章中的关键词。我们采用一元分词举例。那么文章1的关键词是[共][和][国]，文章二的关键词是[中][国]。

2、倒排序索引

通过分词器找出的对应关系是文章到关键词映射，这样处理后的结果不利于检索，几乎是全扫描。lucene再用倒排序建立索引，把这种关系转换成关键词到文章的映射，并对关键词做字符串排序。当然lucene还补充了关键词在文章中出现的频度和位置等信息，这里不做描述。到排序后的结果见下表：

关键词

文章号

共