1. 相关概念
-
全文检索
一种将文件中或者数据库中所有文本与检索项匹配的文字资料检索方法,对全文数据的检索。 -
Lucene
Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作。 -
Elasticsearch
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,是最受欢迎的企业搜索引擎。 -
Solr
Solr是Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成,以及富文本(如Word、PDF)的处理。Solr是高度可扩展的,并提供了分布式搜索和索引复制。
2. 背景
1.大数据背景下数据量的积累与数据应用疲软矛盾一直存在,传统企业的数据存储存在以下问题:
问题1:由于模型受限,传统企业的数据大多存储在关系型数据库mysql、Oracle,非结构化数据存储在MongoDB中。数据量也能积累到TB甚至PB级。
只能进行结构化的检索类似“ select * from table where col like ‘%xxx%’ ”显然不能满足纷繁复杂的业务需求。
问题2:数据是死数据,数据的BI可视化展示需要专业团队开发,但不能得到很好的分析效果。
以上问题形成了数据量累计到