全文检索之Lucene和Solr

最新推荐文章于 2020-02-12 20:27:07 发布

guolin的博客

最新推荐文章于 2020-02-12 20:27:07 发布

阅读量313

点赞数

分类专栏： web技术文章标签：搜索

本文链接：https://blog.csdn.net/jiangguolin089/article/details/78660421

版权

web技术专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1 全文检索介绍

1.1 数据分类

我们生活中的数据总体分为两种：结构化数据和非结构化数据。

结构化数据：指具有固定格式或有限长度的数据，如数据库等。

非结构化数据：指不定长或无固定格式的数据，如邮件，word文档，音像等磁盘上的文件。

1.2 如何对结构化数据搜索？

以数据库为例，因为数据库中的数据存储是有规律的，有行有列而且数据格式、数据长度都是固定的。数据库中的搜索很容易实现，通常都是使用sql语句进行查询，而且能很快的得到查询结果。

但万事皆有特例，以like查询为例，由于like查询采用顺序扫描法，使用关键字匹配内容，对于内容量大的like查询速度将会非常慢。

1.3 如何对非结构化数据搜索？

1.3.1 顺序扫描法(Serial Scanning)

所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是速度会相当的慢。

1.3.2 全文检索(Full-text Search)

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出然后重新组织的信息，我们称之索引。

例如：字典。字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。

这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。

虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。

1. 什么是solr

Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。

Solr可以独立运行，运行在Jetty、Tomcat等这些Servlet容器中，Solr 索引的实现方法很简单，用 POST 方法向 Solr 服务器发送一个描述 Field 及其内容的 XML 文档，Solr根据xml文档添加、删除、更新索引。Solr 搜索只需要发送 HTTP GET 请求，然后对 Solr 返回Xml、json等格式的查询结果进行解析，组织页面布局。Solr不提供构建UI的功能，Solr提供了一个管理界面，通过管理界面可以查询Solr的配置和运行情况。

Solr与Lucene的区别：

Lucene是一个开放源代码的全文检索引擎工具包，它不是一个完整的全文检索引擎，Lucene提供了完整的查询引擎和索引引擎，目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者以Lucene为基础构建全文检索引擎。

Solr的目标是打造一款企业级的搜索引擎系统，它是一个搜索引擎服务，可以独立运行，通过Solr可以非常快速的构建企业的搜索引擎，通过Solr也可以高效的完成站内搜索功能。

一句话描述lucene与solr的关系：

如果把Solr比喻成是一辆汽车，那么lucene就是我们这辆汽车的发动机。我们会开着汽车在马路上一路高歌，而不会开着发动机在路上发疯。