一、下载mmseg4j,下载地址:https://code.google.com/p/mmseg4j/downloads/list,如果该地址无法下载,请在该地址下载:https://download.csdn.net/download/z36090106120/7913863,如果之前你没有配置好solr,请参考:https://blog.csdn.net/WanTianwen/article/details/81987119
二、将需要用到的jar文件(mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-1.9.1.jar)拷入到solr项目的lib目录,我的该目录为:/usr/apache-tomcat-7.0.90/webapps/solr/WEB-INF/lib/,如果jar包在Windows服务器,可以使用SecureCR的rz命令进行上传
三、编辑schema.xml,我的示例文件在:/usr/solr/collection1/conf/schema.xml,找到types节点,加入:
<!-- mmseg4j-->
<fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >
<analyzer>
<!--
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/usr/solr/my_dic"/>
-->
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
</analyzer>
</fieldType>
<!-- mmseg4j-->
然后搜索到name="title",将text_general换成text_mmseg4j_simple,如下:
<field name="title" type="text_mmseg4j_simple" indexed="true" stored="true" multiValued="true"/>
三、重启tomcat服务器,先加入测试数据(Document Type我这里使用的XML),访问:http://192.168.0.101:8080/solr/#/collection1/query
XML数据为
<doc>
<field name="id">1</field>
<field name="title">我老家浙江,我是学的计算机专业</field>
</doc>
<doc>
<field name="id">2</field>
<field name="title">我来自首都,我喜欢电脑,我马上要开始开始进入人生的拼搏阶段,美好生活从这里开始</field>
</doc>
<doc>
<field name="id">3</field>
<field name="title">今天是一个美好的一天,阳光明媚</field>
</doc>
<doc>
<field name="id">4</field>
<field name="title">关于solr的安装请关注我的博客</field>
</doc>
<doc>
<field name="id">5</field>
<field name="title">昨天我刚从上海回到北京,今天我需要安排给大家讲一节新的计算计相关专业的课程</field>
</doc>
<doc>
<field name="id">6</field>
<field name="title">昨天我们部门举行了一场重大的会议</field>
</doc>
四、检测solr中文分词是否配置完成,先进行Analysis测试,发现分词成功
五、在进行query测试,发现已成功()
六、恭喜,solr配置中文分词mmseg4j-1.9.1成功