Java_ABC_8.mmseg导入Solr

最新推荐文章于 2021-09-09 10:29:24 发布

wltao

最新推荐文章于 2021-09-09 10:29:24 发布

阅读量551

点赞数

分类专栏： lucene 分词 java 搜索引擎 solr 文章标签： solr java lucene class 算法

本文链接：https://blog.csdn.net/wltao123/article/details/6622626

版权

java 同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

搜索引擎

6 篇文章 0 订阅

订阅专栏

solr

6 篇文章 0 订阅

订阅专栏

1. mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。

2. 最新的mmseg版本下载地址：http://code.google.com/p/mmseg4j/downloads/list，

3. 将mmseg-all-1.8.4(-with-dic).jar复制到example/solr/lib文件夹下

4. 将schema.xml中加入

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic">

</tokenizer>

</analyzer>

</fieldtype>

<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic">

</tokenizer>

</analyzer>

</fieldtype>

<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic">

</tokenizer>

</analyzer>

</fieldtype>

5. fieldtype中的dicPath可以是相对路径（example/data)，也可以是绝对路径，将mmseg/data中的词典文件拷到dicPath中

wltao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录