在Solr中配置和使用ansj分词

3 篇文章 0 订阅

原文:http://www.cnblogs.com/likehua/p/4481219.html

在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr中、测试ansj分词效果。

一、下载或者编译ansj-seg和nlp-lang等jar包。

   1、您可以到 http://mvnrepository.com/artifact/org.ansj/ansj_seg 中下载相关jar包。(最简单的是直接引用maven地址)

<!-- https://mvnrepository.com/artifact/org.ansj/ansj_seg -->
<dependency>
    <groupId>org.ansj</groupId>
    <artifactId>ansj_seg</artifactId>
    <version>5.0.4</version>
</dependency>

  ansj-seg相关jar包,如下图所示:

二、在solr schema.xml中配置好ansj字段类型。

  1、创建ansj类型。

    找到schema.xml,添加ansj类型text_ansj: 

 <!--ansj start -->
 
    <fieldType name="text_ansj" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
         <tokenizer class="org.ansj.solr.AnsjTokenizerFactory"  isQuery="false"/>
    </analyzer>
    <analyzer type="query">
        <tokenizer class="org.ansj.solr.AnsjTokenizerFactory"/>
    </analyzer>
</fieldType>
 
    <!--ansj end -->
org.ansj.solr.AnsjTokenizerFactory 是ansj-lucene插件。
2、配置好需要索引的字段:

<field name="POI_NAME" type="text_ansj" indexed="true" stored="false"/>

三、在solr环境中配置好ansj。

  在编译好的ansj-seg、nlp-lang、ansj_lucene4_plug 放到solr war包的lib下。


配置ansj相关词库和配置文件,这些配置文件在ansj源码目录下:


四、测试ansj分词效果。

  ansj配置好了以后,把solr所在的tomcat启动一下。用solr管理页面查看效果:

  1、测试分词 "南京市长江大桥”


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值