在使用Solr自带的中分词是有一点不好,就是不能做扩展词库,这对于搜索体验很不好,在这里介绍下 IKAnalyzer 。
IKAnalyzer目前更新到 2012年,我找了很多虽然版本不是7.4,但我用在Solr 7.4 上也可以使用。
一、下载 jar 包
链接:https://pan.baidu.com/s/1UvZn3RB6SkRYUBeWv7Mhwg 密码:dsrc
二、配置
解压后看到一共有这几个文件
(1)先把 两个 jar包放到 tomcat/webapps/solr/WEB-INF/lib 下面,然后把其它三个 放到 tomcat/webapps/solr/WEB-INF/classes 下面
(2)在solr的配置文件 managed-schema 中添加
<!--配置中文分词器-->
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
<!--配置中文分词器使用的field-->
<field name="ik" type="text_ik" indexed="true" stored="true"/>
(3)ext 文件是扩展词库 ,可以在里面添加你的扩展词库,编码格式 UTF-8 无ROM ,一个词占一行
(4)IKAnalyzer.cfg.xml 是配置扩展词库的配置文件,可以看一下里面的代码如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
可以写多个扩展词库,只要用 ; 分隔即可
(5)重启tomcat , 后台体验一下~ 对比一下 没配置 和配置扩展词库后的变化
没配之前:
配置之后: