【solr】——配置中文分析器

最新推荐文章于 2019-10-11 12:44:30 发布

杨小嘿

最新推荐文章于 2019-10-11 12:44:30 发布

阅读量1.6k

点赞数

分类专栏：【工具】 ————solr 文章标签： solr中文分析器配置

本文链接：https://blog.csdn.net/yxflovegs2012/article/details/56005218

版权

19 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

开篇

本篇博客简单的学习一下solr的使用，使用单机版。Solr安装成功后并且启动后可以通过ip：port /solr/进行访问。

Document即文档是solr用来搜索的数据源，这些数据源是我们上传到solr的。不同的应用程序数据库可以通过配置schema.xml来添加要导入到solr中的字段。

正式开始介绍如何使用之前先配置一下中文分析器，要使用的分析器是IKAnalyzer，它是一款结合了词典和文法分析算法的中文分词组件，基于字符串匹配，支持用户词典扩展定义，支持细粒度和智能切分，先看如何配置然后看实际效果。

第一步：把IKAnalyzer依赖的jar包添加到solr工程中。

第二步：把分析器使用的扩展词典添加到classpath中。

第三步：在Schema.xml中需要自定义一个FieldType，可以在FieldType中指定中文分析器。Schema.xml路径入下：

该配置文件末尾添加如下配置：

<fieldType name="text_ik" class="solr.TextField">
  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

启动tomcat，通过浏览器访问solr，输入内容测试中文分词器，效果图如下：

在使用之前首先要向solr中导入测试的数据文件。有很多种方式将数据导入到Solr中：

1、通过Data Import Handler(DIH)从数据库中导入数据

2、加载CSV文件（文件中的数据用逗号分隔），csv文件可以是Excel和Mysql导出的。

3、Post json文档

4、通过Solr Cell索引二进制文档，如word或者pdf。

5、通过java或者solr支持的其他语言，用程序创建并导入到solr中。

本篇配置好了solr的中文分词器，下篇博客结合程序使用solrj向solr中导入数据。

关注