solr学习之-配置中文分词组件mmseg4j

1、首先安装并能够运行solr服务,如果没有,请参考solr学习之-solr安装

2、solr会默认一些中文分词器,但对分词支持的不好,比如输入:我们在北京清华大学附近工作,分出来的都是单个的字(如图),所以我们需要一个专业组件进行分词处理。

现在的分词组件主要有mmseg4j、IkAnalyzer,都比较好用,我们这里选用mmseg4j组件,版本mmseg4j-core-1.9.1,这个版本是一个稳定版本,下载地址:中文分词器mmseg4j



3、lib包配置

解压文件,提取其中的三个文件:mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar。放到目录:D:\service\apache-tomcat-7.0.68\webapps\solr\WEB-INF\lib中(如图)。注意:D:\service\apache-tomcat-7.0.68并不是固定的,根据自己的环境配置。



4、对配置文件的修改

修改配置文件D:\service\solr\solrHome\collection1\conf 下的schema.xml,注意:D:\service\solr\solrHome\collection1并不是固定的,根据自己实际的配置环境。添加下面的两段代码:

1)fieldType:

 <!-- mmseg4j-->
<fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >  
    <analyzer>  
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>  
    </analyzer>  
</fieldType>  
<fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >  
	<analyzer>  
		<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>  
	</analyzer>  
</fieldType>  
<fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >  
	<analyzer>  
		<!--
	    <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>  -->
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>     
	</analyzer>  
</fieldType>
<!-- mmseg4j-->

2)与fieldType对应的field:
<!-- mmseg4j -->
<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
<field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
<field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>
<!--mmseg4j -->

5、完成校验
配置完成后重新启动tomcat服务。如果配置成功,则在 Analyse Fieldname / FieldType下面多了三个选项mmseg4j_complex_name、mmseg4j_maxword_name、mmseg4j_simple_name。如图,说明配置成功。


再看一下mmseg4j的分词效果。





  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值