【Solr】第二步:配置ANSJ中文分词器

一、下载ANSJ的jar包

链接:https://pan.baidu.com/s/16uvyRWw5YqYzeWH43ndViw 密码:ik48

二、

① 将下载下来的jar包放到tomcat下solr项目的lib包内

注:ANSJTokenizerFactory_web4.0.jar这个jar包是自己压缩的

② 将stop.dic 放到..solr-home\configsets\conf\文件夹中

三、修改managed-schema配置文件

  • 在<schema></schema>标签内加上如下配置:
<fieldType name="text_ansj" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
        <tokenizer class="org.ansj.solr.AnsjTokenizerFactory"  isQuery="false" stopwords="stop.dic" sync="chineseWordParticiple.properties"/> 
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stop.dic" />	
    </analyzer>
    <analyzer type="query">
        <tokenizer class="org.ansj.solr.AnsjTokenizerFactory" />
    </analyzer>
</fieldType>
  • 详细解析:

① 名称任意,保持唯一

② 固定值,不需要修改

③ 索引的配置

④ 该ANSJTokenizerFactory_web4.0.jar文件中AnsjTokenizerFactory.class的路径

⑤ 添加索引的时候是否分词

⑥ 停用分词,指向的是..solr-home\configsets\conf\中的stop.dic这个文件

⑦ 指向ANSJTokenizerFactory_web4.0.jar中的文件

:chineseWordParticiple.properties文件中的内容

⑧ 是否忽略大小写

⑨ 查询的配置

 

ANSI参考手册http://nlpchina.github.io/ansj_seg/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值