Solr配置IK中文分词器和自定义分词停词

ik中文分词器下载

第一步:把IK-Analyzer-7.2.1.jar添加到apache-tomcat-9.0.43\webapps\solr\WEB-INF\lib目录下。

第二步:复制IKAnalyzer的配置文件IKAnalyzer.cfg.xml和自定义词典ext.dic和停用词词典stopword.dicapache-tomcat-9.0.43\webapps\solr\WEB-INF\classes下。这一步是用来配置自定义分词和自定义停词的,一些专有名词,我们希望它能够作为独立的词条,这叫做扩展词;一些助词,谓词我们不希望它被作为词条,这叫停词。停词就是不作为搜索条件,扩展词可以搜索
在这里插入图片描述在IKAnalyzer.cfg.xml配置文件里面配置如下信息:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">ext.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">stopword.dic;</entry> 
	
</properties>

示例:
stopword.dic扩展词文件中加入“而且”词条之前
ik分词器将“善良而且坚强”分词为 “善良”,“而且”,“坚强”三个词条,
加入之后
ik分词器将“佳都科技”分词为 “善良”,“坚强”两个词条,

ext.dic扩展词文件中加入“牛二瓦”词条之前
ik分词器将“牛二瓦”分词为 “牛”,“二”,“瓦”三个词条,
加入之后
ik分词器将“牛二瓦”分词为 “牛二瓦”,“二”,“瓦”三个词条(如果不想,二和瓦这两个字,就将这两个字加入到stopword.dic中),

第三步:配置Coremanaged-schema文件,目录solorhome\collection1\conf

<!--ik分词器配置-->
	<fieldType name="text_ik" class="solr.TextField">
    <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
	</fieldType>

	<field name="content_ik" type="text_ik" indexed="true" stored="false"/>

保存,重启tomcat就可以使用IK分词器了

solr管理页面选择核然后选择analysis就可以查看分词效果了
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值