一、mmseg4j对Solr5.x的支持必须使用mmseg4j-2.0以上的版本,本例中我使用的是mmseg4j solr 2.3.0,使用的solr是截止目前为止的solr5.3.1,可下载附件,注意Solr-5.3.1是linux版本,如果需要windows版本,直接去官网上下载,so easy。
二、mmseg4j-2.0后的jar包只有两个了,一个是mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar,而不再有
mmseg4j-analysi-*.jar,感兴趣的可以看我Solr其它专题的博客,里面有一个Solr4.7集成mmseg4j-solr-1.9.1的例子。
三、将jar包导入solr的web app中,如果Solr集成了Tomcat,也可以参照我的另外一篇博客,即Solr4.7集成mmseg4j-solr-1.9.1的例子。本例子中因为使用的是Solr集成的Jetty Server,所以是在solr的jetty server的home目录下的solr-webapp的webapp的WEB-INF目录下的lib目录中加入上面说到的两个jar包。即类似:
/usr/solr/server/solr-webapp/webapp/WEB-INF/lib 的目录。
四、创建一个solr core来进行测试,bin/solr create -c chuanliu
即创建了一个solr core chuanliu,进入该core chuanliu,再进入conf,修改其中managed-schema(在5.0前,该文件是shcema.xml,当然可以将该文件重命名为schema.xml,但不建议这么做),加入下面的内容,即可在Solr Admin 的console中看到新增的这些field了。
伦理片 http://www.dotdy.com/
- <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="complex"/>
- <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
- </analyzer>
- </fieldType>
- <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100">
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="max-word"/>
- <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
- </analyzer>
- </fieldType>
- <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
- <analyzer>
- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" dicPath="/usr/solr/server/solr/chuanliu/conf" mode="simple"/>
- <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
- </analyzer>
- </fieldType>
- <field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
- <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
- <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>
五、去Solr Admin的Console中查看,即可看到新增的3个field和3个field type,也可以在Solr Admin 的Analysis中进行中文分词的分析了。