solr学习笔记(一)

最新推荐文章于 2020-08-14 13:52:56 发布

我的小坚果呢

最新推荐文章于 2020-08-14 13:52:56 发布

阅读量589

点赞数

文章标签： solr

本文链接：https://blog.csdn.net/GeckoLovesKeyboard/article/details/77753255

版权

Solr学习使用笔记(一)

一,Solr的目录结构

将下载的zip包解压到不含中文的目录即可使用,此处需要介绍一下Solr的目录结构,也就是初学者应该知道的几个地方.

首先在第一层目录中需要知道的是contrib和dist,这两个文件夹里面存放的是solr所要依赖的jar包,例如后面solr的数据库数据导入所需要的jar包就是需要拷贝到此处.再一个重要的文件件就是example文件夹.这里面存放的是solr的运行案例和内置的jetty服务器.Solr就是一个web服务.

进入example文件夹

需要注意的几点一是solr文件夹,里面存放的是索引库和配置信息,solr-webapp和webapps里面存放的solr.war,也就是solr服务,最后一个需要注意的地方就是start.jar,这个文件是用来运行jetty容器的.

二,启动jetty服务器,发布solr服务

在cmd中执行Java -jar start.jar 启动jetty服务器,并且访问

http://localhost:8983/solr/#/

三:将服务发布到Tomcat容器中

1,将webapps中的solr.war拷贝到tomacat中的webapps中

2,解压并添加solr需要的依赖包,此处主要需要的是ik分词器的包,日志包

3, 修改Tomcat配置文件，指向Solr的索引库及配置目录。

在bin文件夹中的catalina.bat的开头添加

set "JAVA_OPTS"=-Dsolr.solr.home="路径"

4,启动tomcat,双击bin文件夹中的startup.bat

启动闪退,原因是删了之前的项目,但是,没有在server.xml中去除残留项目信息,打开server.xml,

<ContextdocBase="D:\Software\apache-tomcat-7.0.52\webapps\CRM"path="/CRM" reloadable="true"source="org.eclipse.jst.jee.server:CRM"/>删除这段context包含的内容.

启动报错,发现solr的路径配错.斜杠写反了

org.apache.solr.common.SolrException: Could not load conf for core collection1: Error loading solr config from d:/solr\collection1\conf\solrconfig.xml

再次报错发现8009端口被占用

再次启动

成功,访问http://localhost:80/solr/#/成功

四,Core目录介绍

Solr中core指的是每一个索引库,就像mysql中的每一个数据库,在solr的自带的core,collection1下存在一个conf文件夹和data文件夹,,在conf中主要存放的是配置信息,data存储的是索引的数据.conf配置中需要了解的是约束配置文件schema.xml和索引配置文件solrconfig.xml.

先从collection1中拷贝多一个索引库命名为coreTest,进行配置文件等的修改.

1,在core.properties文件中需要更改内容,是名称和文件夹名和里面的ｎａｍｅ一致

name=coreTest

２,更改约束文件ｓｃｈｅｍａ．ｘｍｌ

Schema.xml（注释在文档中）

<?xml version="1.0" encoding="UTF-8" ?>

</fieldType>

<!-- in this example, we will only use synonyms at query time

-->

</analyzer>

</analyzer>

</fieldType>

</schema>

ｉｋ中文分词器的ｊａｒ包是存放在Ｔｏｍｃａｔ中部署的ｓｏｌｒ项目中的ｌｉｂ中

solrconfig.xml

这个配置文件主要用于优化索引库的，处理请求等．

上述是用来查找ｓｏｌｒ依赖包，扩展插件包，需要找到放置的ｌｉｂ包的ｃｏｎｓｔｒｉｂ和ｄｉｓｔ文件夹，或者更改路径或者拷贝到正确路径．

<!-- default values for query parameters can be specified, these

will be overridden by parameters in the request

-->

<str name="echoParams">explicit</str>

</lst>

<／requestHandler＞

标签用来定义处理请求的，这个例子处理的是查询所有．

五：ｓｏｌｒ数据库导入数据插件安装

第一步:solrconfig.xml，添加导入数据的插件:

<str name="config">db-data-config.xml</str>

</lst>

</requestHandler>

第二步添加配置文件db-data-config.xml

<?xml version="1.0" encoding="UTF-8" ?>

<dataSource type="JdbcDataSource"

driver="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/solrtest"

user="root"

password="simplehxb"/>

</entity>

</document>

</dataConfig>

第三步:将jar包拷贝到部署在tomacat的solr项目的lib包中

启动Tomact,如果id不是string类型需要在solrconfig.xml中这一段配置

<str name="queryFieldType">string</str>

<str name="config-file">elevate.xml</str>

</searchComponent>

六,solrJ的使用

创建maven项目并且管理依赖

<groupId>org.apache.solr</groupId>

<artifactId>solr-solrj</artifactId>

</dependency>

</dependency>

<groupId>commons-logging</groupId>

<artifactId>commons-logging</artifactId>

</dependency>

Creat

编写测试类,测试直接添加文档

@Test

public void testSolrCreat() throws Exception{

HttpSolrServer httpSolrServer = new HttpSolrServer("http://127.0.0.1/solr/coreTest");

//加入document

SolrInputDocument solrDocument = new SolrInputDocument();

//向文档中添加字段

solrDocument.addField("id", 15L);

solrDocument.addField("price", 150000L);

solrDocument.addField("text", "努比亚智能机超长待机能砸核桃");

//添加文档

httpSolrServer.add(solrDocument);

//提交

httpSolrServer.commit();

}

但是一般而言,我们在实际的开发中这种直接添加文档的方式显然是不可取的,从数据库查出数据会被框架直接封装成bean,同样solr提供了直接添加bean的方式创建方式,并且可以添加bean的集合方式.

@Test

public void testSolrCreatByBean() throws Exception{

//连接到索引库

HttpSolrServer httpSolrServer = new HttpSolrServer("http://127.0.0.1/solr/coreTest/");

//创建bean

Item item = new Item(16L, 200000L, "一加玫瑰金超大内存");

httpSolrServer.addBean(item);

//提交

httpSolrServer.commit();

}

Delete

@Test

public void testSolrDelete() throws Exception, IOException{

HttpSolrServer httpSolrServer = new HttpSolrServer("http://127.0.0.1/solr/coreTest/");

//根据id删除

httpSolrServer.deleteById("16");

httpSolrServer.commit();

}

之所以说solr可怕是在于它的查询方式,同时删除也可以根据查询来删除,此处可以直接参考api,下面介绍强大的solrj的查询

Retrieve

以Document形式返回查询的结果

@Test

public void testSolrRetrieveByDocument() throws Exception{

//连接索引库

HttpSolrServer httpSolrServer = new HttpSolrServer("http://127.0.0.1/solr/coreTest/");

//创建查询条件

SolrQuery query = new SolrQuery("text:手机");

//接受返回结果

QueryResponse response = httpSolrServer.query(query);

//拿到文档集合

SolrDocumentList solrDocumentList = response.getResults();

System.out.println("共查到"+solrDocumentList.size()+"条数据");

for (SolrDocument solrDocument : solrDocumentList) {

System.out.println("id:"+solrDocument.get("id"));

System.out.println("price:"+solrDocument.get("price"));

System.out.println("text:"+solrDocument.get("text"));

}

同样以bean形式返回方式

@Test

public void testSolrRetrieveByBean() throws Exception{

//连接索引库

HttpSolrServer httpSolrServer = new HttpSolrServer("http://127.0.0.1/solr/coreTest/");

//创建查询条件

SolrQuery query = new SolrQuery("text:手机");

//接受返回结果

QueryResponse response = httpSolrServer.query(query);

//拿到文档集合

List<Item> items = response.getBeans(Item.class);

for (Item item : items) {

System.out.println(item);

}

总结:

SolrQuery对象的高级查询

在创建SolrQuery时，我们填写的Query语句，可以有以下高级写法：

查询语句中如果有特殊字符，需要转义，可以使用：””

1、匹配所有文档：*:* （通配符？和*：“*”表示匹配任意字符；“？”表示匹配出现的位置）

2、布尔操作：AND、OR和NOT布尔操作（推荐使用大写，区分普通字段）

3、子表达式查询（子查询）：可以使用“()”构造子查询。比如：(query1 AND query2) OR (query3AND query4)

4、相似度查询：
（1）默认相似度查询：title:appla~ ，此时编辑举例是2
（2）指定编辑举例的相似度查询：对模糊查询可以设置编辑举例，可选0~2的整数。

5、范围查询（Range Query）：Lucene支持对数字、日期甚至文本的范围查询。结束的范围可以使用“*”通配符。
（1）日期范围（ISO-8601 时间GMT）：a_begin_date:[1990-01-01T00:00:00Z TO 1999-12-31T24:59:99Z]
（2）数字：salary:[2000 TO *]

（3）文本：entryNm:[a TO a]

6、日期匹配：YEAR, MONTH, DAY, DATE (synonymous with DAY) HOUR, MINUTE, SECOND, MILLISECOND, and MILLI (synonymous with MILLISECOND)可以被标志成日期。
（1）r_event_date:[* TO NOW-2YEAR]：2年前的现在这个时间
（2）r_event_date:[* TO NOW/DAY-2YEAR]：2年前前一天的这个时间