Solr4.7.0中配置中文分词mmseg4j-1.9.1

WanTianwen

于 2018-09-01 22:21:23 发布

阅读量339

点赞数

分类专栏： solr linux nosql

本文链接：https://blog.csdn.net/WanTianwen/article/details/82291066

版权

linux 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

nosql

3 篇文章 0 订阅

订阅专栏

solr

2 篇文章 0 订阅

订阅专栏

一、下载mmseg4j，下载地址：https://code.google.com/p/mmseg4j/downloads/list，如果该地址无法下载，请在该地址下载：https://download.csdn.net/download/z36090106120/7913863，如果之前你没有配置好solr，请参考：https://blog.csdn.net/WanTianwen/article/details/81987119

二、将需要用到的jar文件(mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-1.9.1.jar)拷入到solr项目的lib目录，我的该目录为：/usr/apache-tomcat-7.0.90/webapps/solr/WEB-INF/lib/，如果jar包在Windows服务器，可以使用SecureCR的rz命令进行上传

三、编辑schema.xml，我的示例文件在：/usr/solr/collection1/conf/schema.xml，找到types节点，加入：

    <!-- mmseg4j-->
    <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >
      <analyzer>
        <!--
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/usr/solr/my_dic"/>
        -->
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
      </analyzer>
    </fieldType>
    <!-- mmseg4j-->

然后搜索到name="title"，将text_general换成text_mmseg4j_simple，如下：

<field name="title" type="text_mmseg4j_simple" indexed="true" stored="true" multiValued="true"/>

三、重启tomcat服务器，先加入测试数据(Document Type我这里使用的XML)，访问：http://192.168.0.101:8080/solr/#/collection1/query

XML数据为

<doc>
	<field name="id">1</field>
	<field name="title">我老家浙江，我是学的计算机专业</field>
</doc>
<doc>
	<field name="id">2</field>
	<field name="title">我来自首都，我喜欢电脑，我马上要开始开始进入人生的拼搏阶段，美好生活从这里开始</field>
</doc>
<doc>
	<field name="id">3</field>
	<field name="title">今天是一个美好的一天，阳光明媚</field>
</doc>
<doc>
	<field name="id">4</field>
	<field name="title">关于solr的安装请关注我的博客</field>
</doc>
<doc>
	<field name="id">5</field>
	<field name="title">昨天我刚从上海回到北京，今天我需要安排给大家讲一节新的计算计相关专业的课程</field>
</doc>
<doc>
	<field name="id">6</field>
	<field name="title">昨天我们部门举行了一场重大的会议</field>
</doc>