几种常见的基于Lucene的开源搜索解决方案对比

最新推荐文章于 2024-11-11 14:27:10 发布

dmdx583347792

最新推荐文章于 2024-11-11 14:27:10 发布

阅读量364

点赞数

文章标签： lucene cassandra hbase facet 扩展 solr

一直接使用 Lucene ( http://lucene.apache.org )

说明：Lucene 是一个 JAVA 搜索类库，它本身并不是一个完整的解决方案，需要额外的开发工作
优点：成熟的解决方案，有很多的成功案例。apache 顶级项目，正在持续快速的进步。庞大而活跃的开发社区，大量的开发人员。它只是一个类库，有足够的定制和优化空间：经过简单定制，就可以满足绝大部分常见的需求；经过优化，可以支持 10亿+ 量级的搜索。
缺点：需要额外的开发工作。所有的扩展，分布式，可靠性等都需要自己实现；非实时，从建索引到可以搜索中间有一个时间延迟，而当前的“近实时”(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善

说明：基于 Lucene 的企业级搜索的开箱即用的解决方案
优点：比较成熟的解决方案，也有很多的成功案例。Lucene 子项目，实现了大部分常见的搜索功能需求，包括 facet 搜索（搜索结果分类过滤）等。
缺点：可定制性比 Lucene 要差，一些不常见的需求，定制的难度比直接在 Lucene 上做要大的多。性能上，由于 Solr 的建索引和搜索是同一个进程，耦合度比较高，对于性能调优有一定的影响。

说明：基于 Lucene 的，支持分布式，可扩展，具有容错功能，准实时的搜索方案。
优点：开箱即用，可以与 Hadoop 配合实现分布式。具备扩展和容错机制。
缺点：只是搜索方案，建索引部分还是需要自己实现。在搜索功能上，只实现了最基本的需求。成功案例较少，项目的成熟度稍微差一些。因为需要支持分布式，对于一些复杂的查询需求，定制的难度会比较大。

五 LinkedIn 的开源方案 ( http://sna-projects.com/ )

说明：基于 Lucene 的一系列解决方案，包括准实时搜索 zoie ，facet 搜索实现 bobo，机器学习算法 decomposer ，摘要存储库 krati ，数据库模式包装 sensei 等等
优点：经过验证的解决方案，支持分布式，可扩展，丰富的功能实现
缺点：与 linkedin 公司的联系太紧密，可定制性比较差

说明：基于 Lucene，索引存在 HBase 数据库中
优点：参考 HBase 的优点
缺点：参考 HBase 的缺点。另外，在实现中，lucene terms 是存成行，但每个 term 对应的 posting lists 是以列的方式存储的。随着单个 term 的 posting lists 的增大，查询时的速度受到的影响会非常大

参考材料： http://mail-archives.apache.org/mod_mbox/hbase-user/201006.mbox/%3C149150.78881.qm@web50304.mail.re2.yahoo.com%3E