概述
全文检索引擎,区别于结构化数据库检索(SQL),是以检索非结构化纯文本为目标的引擎。通过倒排结构高效检索文本。
目前业界最流行的 Solr 与 ElasticSearch(ES) 都是基于Lucene的搜索引擎框架。Lucene更像一个搜索引擎 Java API库,而Solr和ES在其上进一步封装扩展到Server级别。
比较
这篇文章写得较为全面:https://www.cnblogs.com/jajian/p/9801154.html
结论:
ES 易用性更好:在分布式支持(不依赖zk内部集成支持分布式),监控报表丰富,简易版可以快速上手。
Solr基本已不推荐
Elasticsearch 的特点:
1) 不依赖于hadoop/yarn平台支持,自成平台,自己管理。
2) 2000万左右数据,4台机器,可承受每秒100qps左右查询压力。
3)不支持自定义排序,不支持自定义feature回传;只能设定各个域权重,利用内部的tfidf规则索引&排序(相当于index+query),可回传域(如title原串)在上层进一步rerank
4) 支持数值型、范围搜索,支持自定义求交规则,复杂表达式;
5)自成一套系统,简易