lucene:
底层使用倒排索引:
倒排索引:
1.先将要存储索引的数据做编号形成文档列表(含有文档编号,跟其他字段)
2.将文档数据进行分词,得到很多分词,以词条为索引,根据词条保存含有这个词条的文档编号
3.将用户输入的内容进行分词得到词条,拿这些词条去倒排索引列表匹配;能匹配上就能找到包含这些词条的文档编号,根据文档编号查找文档并相应给用户
TestField(会创建索引也会被分词)StringField(会创建索引但不会被分词)
添加索引流程
1.创建字段(field)到文档对象(document)通过索引写入器(indexWriter){需要装置写入器配置对象(indexWriterConfig)配置分词器(analyzer)} 写入到目录类(Directory)
solr跟Elasticsearch的优缺点
solr:
优点
1、Solr有一个更大、更成熟的用户、开发和贡献者社区。
2、支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
3、Solr比较成熟、稳定。
4、不考虑建索引的同时进行搜索,速度更快。
缺点
建立索引时,搜索效率下降,实时索引搜索效率不高。
Elasticsearch
优点
1、Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
2、Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
3、处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
4、Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
5、各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
缺点
1、还不够自动,不适合当前新的Index Warmup API (参考:http://zhaoyanblog.com/archives/764.html)
总结:
1、当单纯的对已有数据进行搜索时,Solr更快。
2、当实时建立索引时, Solr会产生io阻塞,查询性能较差, Elasticsearch具有明显的优势。
3、随着数据量的增加,Solr的搜索效率会变得更低,而Elasticsearch却没有明显的变化。
4、Solr的架构不适合实时搜索的应用。
5、Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式
6、Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch
7、Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用