solr中mmseg4j自定义词库配置

最新推荐文章于 2017-06-19 10:42:19 发布

alen1985

最新推荐文章于 2017-06-19 10:42:19 发布

阅读量9k

点赞数

分类专栏： solr/lucene学习总结文章标签： solr mmseg4j 中文分词

本文链接：https://blog.csdn.net/alen1985/article/details/8501021

版权

solr/lucene学习总结专栏收录该内容

7 篇文章 0 订阅

订阅专栏

mmseg4j是一个比较流行的中文分词，具体介绍见：http://code.google.com/p/mmseg4j/
schema.xml 配置文件：

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" >
         <analyzer>
                 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/data/web/search_cores/multicore/dic"/>
                         <filter class="solr.LowerCaseFilterFactory"/>
                         <filter class="com.chenlb.mmseg4j.solr.CutLetterDigitFilterFactory"/>
         </analyzer>
    </fieldType>
    <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" >
         <analyzer>
                 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
                         <filter class="solr.LowerCaseFilterFactory"/>
         </analyzer>
    </fieldType>
    <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" >
         <analyzer>
                 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
                         <filter class="solr.LowerCaseFilterFactory"/>
         </analyzer>
    </fieldType>

主要是红色部分(dicPath="/data/web/search_cores/multicore/dic"/>)，可以使用相对solr.home的地址，或者绝对地址。经过分析mmseg4j源代码发现，如果不指定就是默认在 CWD/data 目录（程序运行当前目录的data子目录）下找.如果填的是相对地址，则是相对solr.home的路径。当然，最好使用绝对地址，相对的容易出错，不好debug。

resin服务器配置的solr.home：

                        <web-app id="/" document-directory="/data/web/projects/xiaozhao-solr">
                                 <stdout-log path="/data/logs/zhaopin-resin_solr-stdout.log" timestamp="[%H:%M:%S.%s]" rollover-period="1D"/>
                                 <stderr-log path="/data/logs/zhaopin-resin_solr-stderr.log" timestamp="[%H:%M:%S.%s]" rollover-period="1D"/>
                                 <character-encoding>utf-8</character-encoding>
                                 <env-entry>
                                     <env-entry-name>solr/home</env-entry-name>
                                     <env-entry-type>java.lang.String</env-entry-type>
                                     <env-entry-value>/data/web/search_cores/multicore</env-entry-value>
                                </env-entry>
                        </web-app>

不加词库效果如下：

自定义词库只要放到/data/web/search_cores/multicore/dic目录下，以words开头，dic结尾，每行一个词即可。如：words-my.dic

白云山
I
B
M
3
二次修改

加入自定义词后分词效果如下：

从上图可以看出，自定义词库已经生效。

遗留问题：加入英文字母后，分词效果仍没有，目前只对中文分词生效，英文如果想对单个字母分词，需要进一步分析。有知道的朋友，欢迎留言~

alen1985

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
solr中mmseg4j自定义词库配置

mmseg4j是一个比较流行的中文分词，具体介绍见：http://code.google.com/p/mmseg4j/schema.xml 配置文件： dicPath="/data/web/search_cores/multicore/dic"/>
复制链接

扫一扫