Solr配置IK中文分词器和自定义分词停词

最新推荐文章于 2024-06-28 10:02:40 发布

滑稽的鼠标

最新推荐文章于 2024-06-28 10:02:40 发布

阅读量859

点赞数 1

分类专栏： solr 文章标签： solr

本文链接：https://blog.csdn.net/weixin_43085797/article/details/115716883

版权

solr 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

ik中文分词器下载

第一步：把IK-Analyzer-7.2.1.jar添加到apache-tomcat-9.0.43\webapps\solr\WEB-INF\lib目录下。

第二步：复制IKAnalyzer的配置文件IKAnalyzer.cfg.xml和自定义词典ext.dic和停用词词典stopword.dic到apache-tomcat-9.0.43\webapps\solr\WEB-INF\classes下。这一步是用来配置自定义分词和自定义停词的，一些专有名词，我们希望它能够作为独立的词条，这叫做扩展词；一些助词，谓词我们不希望它被作为词条，这叫停词。停词就是不作为搜索条件，扩展词可以搜索
在这里插入图片描述在IKAnalyzer.cfg.xml配置文件里面配置如下信息：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">ext.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">stopword.dic;</entry> 
	
</properties>

示例：
stopword.dic扩展词文件中加入“而且”词条之前：
ik分词器将“善良而且坚强”分词为 “善良”，“而且”，“坚强”三个词条，
加入之后：
ik分词器将“佳都科技”分词为 “善良”，“坚强”两个词条，

ext.dic扩展词文件中加入“牛二瓦”词条之前，
ik分词器将“牛二瓦”分词为 “牛”，“二”，“瓦”三个词条，
加入之后，
ik分词器将“牛二瓦”分词为 “牛二瓦”，“二”，“瓦”三个词条（如果不想，二和瓦这两个字，就将这两个字加入到stopword.dic中），

第三步：配置Core的managed-schema文件，目录solorhome\collection1\conf

<!--ik分词器配置-->
	<fieldType name="text_ik" class="solr.TextField">
    <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
	</fieldType>

	<field name="content_ik" type="text_ik" indexed="true" stored="false"/>