简单介绍一下solr?

最新推荐文章于 2022-03-08 19:01:20 发布

weixin_33883178

最新推荐文章于 2022-03-08 19:01:20 发布

阅读量188

点赞数

文章标签： java 数据库 c/c++

　　简单介绍一下solr?
　　
　　Solr是一个独立的企业级搜索应用服务器，它对外提供类似于web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过http Get操作提出查找请求，并得到XML格式的返回结果。
　　
　　特点：Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。
　　
　　工作方式：文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema 来定义字段，类型和设置文本分析，提供基于Web的管理界面等。
　　
　　2.Solr怎么设置搜索结果排名靠前？
　　
　　可以设置文档中域的boost值，boost值越高，计算出来的相关度得分就越高，排名也就越靠前。此方法可以把热点产品或者推广商品的排名提高。
　　
　　3.solr中lk分词器原理是什么？
　　
　　IK分词器的分词原理是词典分词。先在内存中初始化一个词典，然后在分词过程中挨个读取字符，和字典中的字符相匹配，把文档中的所有词语拆分出来的过程。
　　
　　1.2 搜索介绍
　　
　　 1.2.1 传统搜索实现方案
　　
　　说明：根据用户输入的搜索关键词（java），应用服务器通过SQL语句查询数据库，数据库服务器把查询结果响应给应用服务器，应用服务器把查询结果响应给用户。
　　
　　特点：用户量大，数据量大，数据库服务器的压力很大，查询速度慢！！！
　　
　　 1.2.2 Lucene实现方案
　　
　　说明：根据用户输入的搜索关键词（java），应用服务器通过Lucene的API搜索索引库，索引库把搜索结果响应到应用服务器，应用服务器再把搜索结果响应给用户。
　　
　　特点：解决用户量大，数据量很大，系统对搜索速度要求高的业务需求（实时查询）。
　　
　　1.3 数据查询方法
　　
　　 1.3.1 顺序扫描法
　　
　　举个例子：比如我们有大量的文件，文件编号从A，B，C。。。。。。
　　
　　需求：要找出文件内容中包含有java的所有文件
　　
　　需求实现：从A文件开始查找，再找B文件，然后再找C文件，以此类推。。。。。
　　
　　特点：如果文件数量很多，查找速度慢！！！
　　
　　1.3.2 倒排索引法
　　
　　举个例子：使用新华字典查找汉字，先找到汉字的偏旁部首，再根据偏旁部首对应的目录（索引）找到目标汉字。
　　
　　以lucene为例建立倒排索引：
　　
　　文件一(编号0)：we like java java java
　　
　　文件二（编号1）：we like lucene lucene lucene
　　
　　说明：
　　
　　建立倒排索引，就是建立词语与文件的对应关系（词语在什么文件出现，出现了几次，在什么位置出现）。
　　
　　搜索的时候，直接根据搜索关键词（java），在倒排序中找到目标内容。
　　
　　1.4 搜索技术应用场景
　　
　　单机软件搜索（idea）
　　
　　站内搜索（京东、淘宝）
　　
　　垂直搜索（限定行业，比如教育，医疗搜索）
　　
　　平台搜索（百度，360，搜狗）
　　
　　2. Lucene介绍
　　
　　2.1 Lucene是什么
　　
　　Lucene是apache软件基金会下的一个子项目。是一个成熟、免费、开放源代码的全文检索引擎工具包。提供了一套简单易用的API，方便在目标系统中实现全文检索功能。目前已经有很多应用系统的搜索功能是基于lucene来实现。比如eclipse帮助系统的搜索功能。
　　
　　Lucene能够为文本类型的数据建立索引，只需要把数据转换成文本格式，lucene就可以对文档进行索引和搜索。比如常见的word文档、html文档、pdf文档。首先将文档内容转换成文本格式，交给lucene进行索引，把建立好的索引保存在硬盘或者内存中。然后根据用户输入的查询条件，在索引文件中查找，返回查询结果给用户。
　　
　　2.2 全文检索是什么
　　
　　索引流程:计算机通过索引程序扫描文件中的每一个词语，建立词语与文件的对应关系。
　　
　　检索流程：计算机通过检索程序，根据搜索关键词，在索引库查找目标内容。
　　
　　select * from table where 。。。
　　
　　table字段Num有0和1两种值
　　
　　当参数@Type的值为0时，查询所有记录（包括0和1）
　　
　　当参数@Type的值为1时，查询Num为0的记录
　　
　　当参数@Type的值为2时，查询Num为1的记录
　　
　　方案1：
　　
　　declare int @Type
　　
　　select * from table where CASE WHEN @Type=www.furong157.com 0 THEN num WHEN @Type=1 THEN 0 ELSE 1 END = NUM
　　
　　方案2：
　　
　　USE tempdb
　　
　　GO
　　
　　IF OBJECT_ID('t'www.michenggw.com/) IS NOT NULL DROP TABLE t
　　
　　GO
　　
　　CREATE TABLE t(
　　
　　id INT IDENTITY(1,www.leyouzaixian2.com) PRIMARY KEY,
　　
　　Num INT
　　
　　)
　　
　　GO
　　
　　INSERT INTO t(Num) VALUES (www.yigouyule2.cn );
　　
　　INSERT INTO t(Num) VALUES (www.xycheng178.com);
　　
　　INSERT INTO t(Num) VALUES (www.huarenyl.cn);
　　
　　INSERT INTO t(Num) VALUES (www.hjshidpt.com);
　　
　　GO
　　
　　--- 以上为测试表及测试数据 ----
　　
　　--下面的写法，也许不算简洁，但足够清晰，如果有更多的情况，要扩展也非常容易
　　
　　DECLARE @Type INT
　　
　　SET @type=1
　　
　　select * from t where Num IN (
　　
　　SELECT [Num] FROM (
　　
　　VALUES
　　
　　(0,0) --当参数@Type的值为0时，查询所有记录（包括0和1）
　　
　　,(0,1)
　　
　　,(1,0) --当参数@Type的值为1时，查询Num为0的记录
　　
　　,(2,1) --当参数@Type的值为2时，查询Num为1的记录
　　
　　) AS T([Type],[Num])
　　
　　WHERE [Type]=@Type
　　
　　)
　　
　　/*
　　
　　id Num
　　
　　----------- -----------
　　
　　2 0
　　
　　4 0
　　
　　(2 行受影响)
　　
　　*/
　　
　　--或者
　　
　　select * from t where Num IN (
　　
　　SELECT [Num] FROM (
　　
　　SELECT 0 AS [Type],0 AS [Num] --当参数@Type的值为0时，查询所有记录（包括0和1）
　　
　　UNION ALL SELECT 0,1
　　
　　UNION ALL SELECT 1,0 --当参数@Type的值为1时，查询Num为0的记录
　　
　　UNION ALL SELECT 2,1 --当参数@Type的值为2时，查询Num为1的记录
　　
　　) AS T
　　
　　WHERE [Type]=@Type
　　
　　)
　　
　　/*
　　
　　id Num
　　
　　----------- -----------
　　
　　2 0
　　
　　4 0
　　
　　(2 行受影响)