Solr技术的学习与理解

Solr是什么?

Solr是基于Lucene的Java搜索引擎服务器。它是提供了层面搜索,命中醒目标识并且支持输出多种格式(XML,JSON)。Solr易于安装和配置,而且附带一个基于HTTP的管理页面。它的成熟与稳定,使其在大型网站中备受青睐。因为Solr包装并扩展了Lucene,所以Lucene大部分特性可沿用至其中。更重要的是Solr的索引与Lucene的引擎搜索库完全兼容,在某些情况下,我们可以对Solr进行适当的编码,然后访问某些Lucene应用程序中的索引。同样对于某些Lucene工具,也可以使用Solr创建的对象作为索引。

为什么使用Solr?

Solr具有以下的的优点

  1. 高级的全文检索功能;
  2. 专为高通量的网络流量进行优化;
  3. 基于开放接口(XML,HTTP)的标准;
  4. 综合的HTML管理页面;
  5. 可伸缩性,通过复制可在其他的Solr引擎中使用;
  6. 使用XML配置达到灵活性;
  7. 可扩展的插件体系
Solr的检索过程

Solr是企业级独立搜索引擎,它对外提供了Web-Service的接口。用户可以通过提交http请求,向搜索服务器提供一定格式的XML文件,就可以创建一个索引。Solr采用的是倒排索引即全文索引,在此我们需要了解一个全文搜索的概念。日常生活中的数据有两种,结构化数据和非结构化数据。
结构化数据:存储同类型或者有有限长度的数据,如元数据和数据库。
非结构化数据:指不定长或者任意长度的文件,如邮件,word。
半结构化数据:即可当作结构化文件,在有需要的时候可以抽取文本作为非结构化数据。如html,xml。
对于非结构化数据又可称为全文数据.
按照数据的搜索我们又可以分为以下两种情况:
结构搜索:对数据库的搜索,使用SQL语句查询。对Windows下的文件搜索,按类型、文件名和修改时间。
非结构化搜索:windows搜索也可以按照文件内容进行搜索,或者通过Google搜索自己想要的内容。Linux下的-grep 也是其中一种。
对全文搜索也分为以下两种:

  1. 顺序扫描法,对于整个服务器中的文件从头到尾的遍历,找到相关的内容都会返回。
  2. 全文检索,提取数据的信息生成索引。
    全文检索有可以分为以下两步:创建索引,和查询索引。

Solr还提供了IKanalyzer分词技术,提供了强大的模糊搜索功能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值