solr
Solr 是一个可扩展的,可部署,搜索/存储引擎,优化搜索大量以文本为中心的数据。Solr 是一个开源搜索平台,用于构建搜索应用程序。 它建立在 Lucene(全文搜索引擎)之上。 Solr 是企业级的,快速的和高度可扩展的。 使用 Solr 构建的应用程序非常复杂,可提供高性能。
Solr是基于lucene的全文检索应用程序,其实就是web项目,可以部署到tomcat。
Elasticsearch也是基于lucene的全文检索应用程序。
全文检索:
表现形式:对输入的内容进行模糊匹配。
特点:不是查询数据库,因为数据查询过慢。
查询方式:全文检索查询的是索引库。
索引库:给所有数据添加索引,保存到一个地方。
概念:将所有的数据添加索引,保存到一个地方。查询的时候不再查询数据库,而是根据索引查询索引库。
实现方式:solr。
solr的安装:
1:安装 Tomcat,解压缩即可。
2:解压 solr。
3:把 solr 下的dist目录solr-4.10.3.war部署到 Tomcat\webapps下(去掉版本号)。
4:启动 Tomcat解压缩 war 包
5:把solr下example/lib/ext 目录下的所有的 jar 包,添加到 solr 的工程中(\WEB-INF\lib目录下)。
6:创建一个 solrhome 。solr 下的/example/solr 目录就是一个 solrhome。复制此目录到D盘改名为solrhome
7:关联 solr 及 solrhome。需要修改 solr 工程的 web.xml 文件。
<env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value>d:\solrhome</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>
8:启动 Tomcat
http://IP:8080/solr/
中文分析器IK Analyzer:
1、把IKAnalyzer2012FF_u1.jar 添加到 solr 工程的 lib 目录下
2、创建WEB-INF/classes文件夹 把扩展词典、停用词词典、配置文件放到 solr 工程的 WEB-INF/classes 目录下。
3、修改 Solrhome 的 schema.xml 文件,配置一个 FieldType,使用 IKAnalyzer
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
配置域:
域相当于数据库的表中字段,用户存放数据,因此用户根据业务需求去定义相关的Field(域)。
域的常用属性:
key | 对应的含义 |
---|---|
name | 指定域的名称 |
type | 指定域的类型 |
indexed | 是否索引(需要搜索必须为true) |
stored | 是否存储(是否要被查询出来) |
required | 是否必须(必须有值) |
multiValued | 是否多值(可以存储多个数据) |
复制域:
如果使用普通的域进行搜索操作,一个搜索条件就要对应一个域,如果搜索条件可以设置多个,就要匹配多个域,匹配不太容易
引入复制域,可以将多个域中的数据,拷贝存储到复制域,这样复制域中就会包含所有的域的数据,搜索条件直接去匹配复制域,就可以匹配到对应的域数据。
<field name="item_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
<copyField source="item_title" dest="item_keywords"/>
<copyField source="item_category" dest="item_keywords"/>
<copyField source="item_seller" dest="item_keywords"/>
<copyField source="item_brand" dest="item_keywords"/>
注:stored="false"
,只需要进行搜索,不需要查询出来,实际查询出来的是具体某一个域的数据。
动态域:
当我们需要动态扩充字段时,我们需要使用动态域。对于品优购,规格的值是不确定的,所以我们需要使用动态域来实现。不同的值查询出来的结果不同。
<dynamicField name="item_spec_*" type="string" indexed="true" stored="true" />
判断属性属于属于哪一个域:
1.是不是根据这个字段进行搜索。
2.需不需要显示结果。
3.是不是要用到这个字段信息。
Spring Data Solr
Spring Data Solr就是为了方便Solr的开发所研制的一个框架,其底层是对SolrJ(官方API)的封装。
1.pom.xml
<dependency>
<groupId>org.springframework.data</groupId>
<artifactId>spring-data-solr</artifactId>
<version>1.5.5.RELEASE</version>
</dependency>
2.创建applicationContext-solr.xml
<!-- solr服务器地址 -->
<solr:solr-server id="solrServer" url="http://127.0.0.1:8080/solr" />
<!-- solr模板,使用solr模板可对索引库进行CRUD的操作 -->
<bean id="solrTemplate" class="org.springframework.data.solr.core.SolrTemplate">
<constructor-arg ref="solrServer" />
</bean>
3.@Field注解
在实体类中进行注解设置 表明实体类字段的数据要保存到索引库的哪个字段中:
@Field
private Long id;
@Field("item_title")
private String title; ...
注:
(1)表示实体类中的属性title会和solr索引库中的item_title域进行映射,表示title的数据会存储到item_title域中。
(2)如果实体类中的属性和solr索引库中的名称一样,不需要指定。
(3)如果实体类中的属性和solr索引库中的名称不一样,需要指定。
增加:
solrTemplate.saveBean(实体类对象);
solrTemplate.commit();
批量增加:
solrTemplate.saveBeans(实体类对象的集合);
solrTemplate.commit();
按主键查询:
TbItem item = solrTemplate.getById(1, TbItem.class);
按主键删除:
solrTemplate.deleteById("1");
solrTemplate.commit();
注:
(1)Java中BigDecimal的赋值new BigDecimal(3000.01)。
(2)增删改需要commit(),才可以将数据提交。
(3)添加和修改都是同一个方法,如果已经存在就是修改,如果不存在就是添加。
分页查询:
Query query=new SimpleQuery("*:*");
query.setOffset(20);//开始索引(默认0)
query.setRows(20);//每页记录数(默认10)
ScoredPage<TbItem> page = solrTemplate.queryForPage(query, TbItem.class);
System.out.println("总记录数:"+page.getTotalElements());
List<TbItem> list = page.getContent();//此时才是查询出来的数据
注:
(1)*:* : 查询表达式。设置查询所有字段的所有值。(id:2 : 查询id为2的数据)
(2)如果不设置分页操作,默认只查询前10条数据。
条件查询:
Criteria 用于对条件的封装
Query query=new SimpleQuery("*:*");
Criteria criteria=new Criteria("item_title").contains("2");
criteria=criteria.and("item_title").contains("5");//条件的拼接
query.addCriteria(criteria);
ScoredPage<TbItem> page = solrTemplate.queryForPage(query, TbItem.class);
System.out.println("总记录数:"+page.getTotalElements());
List<TbItem> list = page.getContent();
注:contains是包含,is是精确查询。
删除全部数据:
Query query=new SimpleQuery("*:*");
solrTemplate.delete(query);
solrTemplate.commit();
注:Query的没有加Criteria ,则*:*
为必加。
批量数据导入
1.pom.xml
2.创建spring 配置文件:
<context:component-scan base-package="com.pinyougou.solrutil"/>
3.添加solr配置文件
4.动态域注解
@Dynamic
@Field("item_spec_*")
private Map<String,String> specMap;
Map specMap= JSON.parseObject(item.getSpec());
item.setSpecMap(specMap);
通过specMap中的key即可匹配动态域中的*。
5.编写工具类:
@Component
public class SolrUtil {
@Autowired
private TbItemMapper itemMapper;
// 导入商品数据
public void importItemData(){
TbItemExample example=new TbItemExample();
Criteria criteria = example.createCriteria();
criteria.andStatusEqualTo("1");//已审核
List<TbItem> itemList = itemMapper.selectByExample(example);
solrTemplate.saveBeans(itemList);
solrTemplate.commit();
for(TbItem item:itemList){
Map specMap= JSON.parseObject(item.getSpec());//将spec字段中的json字符串转换为map
item.setSpecMap(specMap);//给带注解的字段赋值
}
}
public static void main(String[] args) {
ApplicationContext context=new ClassPathXmlApplicationContext("classpath*:spring/applicationContext*.xml");
SolrUtil solrUtil= (SolrUtil) context.getBean("solrUtil");
solrUtil.importItemData();
}
}
注:
获取mysql中的数据为什么要在main方法加载配置文件,从spring容器中得到当前类对象,调用方法,而不是直接调用方法?
因为方法中要使用mapper,而mapper是从spring容器中注入过来的,所以必须加载配置文件初始化spring容器,才能进行注入操作,如果不在配置文件,就没有spring容器,就不能注入mapper。
关键字搜索
Map<String,Object> map=new HashMap<>();
Query query=new SimpleQuery();
//添加查询条件
Criteria criteria=new Criteria("item_keywords").is(searchMap.get("keywords"));
query.addCriteria(criteria);
ScoredPage<TbItem> page = solrTemplate.queryForPage(query, TbItem.class);
map.put("rows", page.getContent());
return map;
注:
(1)可以在service层中,@Service(timeout=5000)(毫秒值)或者在Controller层中@Reference中加,代表超时时间,如果两个地方都写了则以Controller层中的为准,所以一般写在Service层中,Service更能精确的表示代码的执行,当需要改变时直接在Controller层中改变。
(2)如果commit()报错没有callback则能看到数据但不可操作,处于被删和删之间的状态。