配置solr的schema.xml加入中文分词器

最新推荐文章于 2019-05-08 22:55:58 发布

alleni123

最新推荐文章于 2019-05-08 22:55:58 发布

阅读量135

点赞数

分类专栏： lucene 文章标签： solr

本文链接：https://blog.csdn.net/alleni123/article/details/84550013

版权

lucene 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml

1. 首先在<types></types>中加入fieldType。

这里使用mmseg.
在mmseg文件中，打开readme.txt，可以看到：

[color=blue]5、在 com.chenlb.mmseg4j.solr包里扩展solr tokenizerFactory。
在 solr的 schema.xml 中定义 field type如：

<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
      </analyzer>
    </fieldType>

dicPath 指定词库位置（每个MMSegTokenizerFactory可以指定不同的目录，当是相对目录时，是相对 solr.home 的目录），mode 指定分词模式（simple|complex|max-word，默认是max-word）。
[/color]

这里的dicPath是词库位置目录，相对于solr.home目录。
所以要在solr/home目录中建立一个dic文件夹，把词库文件放进去。

最后的dicPath是绝对路径。没有的话就设置为dic即可

2. 将mmseg4j-all-1.8.5.jar放入到d:/lucene/solr/server/solr/WEB-INF/lib里。

3. 打开http://localhost:8080/solr/admin/analysis.jsp
选择type，输入上面的fieldType name="xx"的xx值。

输入中文就可以进行分词了。

4. 设置field。
找到 <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
把type="text_general"修改为textComplex,那么我们建立的名为title的field，就会使用中文分词了。

alleni123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
配置solr的schema.xml加入中文分词器

solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml1. 首先在中加入fieldType。这里使用mmseg.在mmseg文件中，打开readme.txt，可以看到：[color=blue]5、在 com.chenlb.mmseg4j.solr包里扩展solr tokenizerFacto...
复制链接

扫一扫

专栏目录