Solr技术的学习与理解

最新推荐文章于 2021-01-19 17:42:52 发布

CWK_wizard

最新推荐文章于 2021-01-19 17:42:52 发布

阅读量376

点赞数

分类专栏： Java

本文链接：https://blog.csdn.net/weixin_43379706/article/details/103210282

版权

Java 专栏收录该内容

3 篇文章

订阅专栏

Solr是什么？

Solr是基于Lucene的Java搜索引擎服务器。它是提供了层面搜索，命中醒目标识并且支持输出多种格式（XML，JSON）。Solr易于安装和配置，而且附带一个基于HTTP的管理页面。它的成熟与稳定，使其在大型网站中备受青睐。因为Solr包装并扩展了Lucene，所以Lucene大部分特性可沿用至其中。更重要的是Solr的索引与Lucene的引擎搜索库完全兼容，在某些情况下，我们可以对Solr进行适当的编码，然后访问某些Lucene应用程序中的索引。同样对于某些Lucene工具，也可以使用Solr创建的对象作为索引。

为什么使用Solr？

Solr具有以下的的优点

高级的全文检索功能；
专为高通量的网络流量进行优化；
基于开放接口（XML，HTTP）的标准；
综合的HTML管理页面；
可伸缩性，通过复制可在其他的Solr引擎中使用；
使用XML配置达到灵活性；
可扩展的插件体系

Solr的检索过程

Solr是企业级独立搜索引擎，它对外提供了Web-Service的接口。用户可以通过提交http请求，向搜索服务器提供一定格式的XML文件，就可以创建一个索引。Solr采用的是倒排索引即全文索引，在此我们需要了解一个全文搜索的概念。日常生活中的数据有两种，结构化数据和非结构化数据。
结构化数据：存储同类型或者有有限长度的数据，如元数据和数据库。
非结构化数据：指不定长或者任意长度的文件，如邮件，word。
半结构化数据：即可当作结构化文件，在有需要的时候可以抽取文本作为非结构化数据。如html,xml。
对于非结构化数据又可称为全文数据.
按照数据的搜索我们又可以分为以下两种情况：
结构搜索：对数据库的搜索，使用SQL语句查询。对Windows下的文件搜索，按类型、文件名和修改时间。
非结构化搜索：windows搜索也可以按照文件内容进行搜索，或者通过Google搜索自己想要的内容。Linux下的-grep 也是其中一种。
对全文搜索也分为以下两种：