第一步:把IK-Analyzer-7.2.1.jar
添加到apache-tomcat-9.0.43\webapps\solr\WEB-INF\lib
目录下。
第二步:复制IKAnalyzer
的配置文件IKAnalyzer.cfg.xml
和自定义词典ext.dic
和停用词词典stopword.dic
到apache-tomcat-9.0.43\webapps\solr\WEB-INF\classes
下。这一步是用来配置自定义分词和自定义停词的,一些专有名词,我们希望它能够作为独立的词条,这叫做扩展词;一些助词,谓词我们不希望它被作为词条,这叫停词。停词就是不作为搜索条件,扩展词可以搜索
在IKAnalyzer.cfg.xml配置文件里面配置如下信息:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
示例:
stopword.dic
扩展词文件中加入“而且”词条之前:
ik分词器将“善良而且坚强”分词为 “善良”,“而且”,“坚强”三个词条,
加入之后:
ik分词器将“佳都科技”分词为 “善良”,“坚强”两个词条,
ext.dic
扩展词文件中加入“牛二瓦”词条之前,
ik分词器将“牛二瓦”分词为 “牛”,“二”,“瓦”三个词条,
加入之后,
ik分词器将“牛二瓦”分词为 “牛二瓦”,“二”,“瓦”三个词条(如果不想,二和瓦这两个字,就将这两个字加入到stopword.dic中),
第三步:配置Core
的managed-schema
文件,目录solorhome\collection1\conf
<!--ik分词器配置-->
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
<field name="content_ik" type="text_ik" indexed="true" stored="false"/>
保存,重启tomcat
就可以使用IK
分词器了
在solr
管理页面选择核然后选择analysis
就可以查看分词效果了