ik php分词,IK中文分词的配置和使用

IK中文分词的配置和使用

目前有很多优秀的中文分词组件。本篇只以  IKAnalyzer 分词为例,讲解如何在 solr  中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易。具体就不多介绍,这里直接solr 集成 IK 的方法。

1.首先,下载IKKAnalyzer,下载   注意:以前的老的IK不支持Solr 5.3的版本,请注意下载最新的.

2. 将ik的相关文件 拷贝到 webapps\solr\WEB-INF\lib 目录下

3. 在 solr_home\mycore1\conf\schema.xml 增加如下配置

1c4684ec9aec

同时,把需要分词的字段,设置为text_ik

4.重启服务

注意:如果之前已经创建了索引,需要将之前的索引删除掉,重新创建分词后的索引。

5.在admin后台,analysis下查看分词的效果

1.中文分词的效果

1c4684ec9aec

2.索引查询的效果

1c4684ec9aec

6. 配置IKAnalyzer分词器的扩展词典,停止词词典

1. 将 文件夹下的IKAnalyzer.cfg.xml , ext.dic和stopword.dic 三个文件 复制到/webapps/solr/WEB-INF/classes 目录下,并修改IKAnalyzer.cfg.xml

IK Analyzer 扩展配置

ext.dic;

stopword.dic;

2. 在ext.dic 里增加自己的扩展词典,例如,婴儿奶粉3段

1c4684ec9aec

注意:  记得将stopword.dic,ext.dic的编码方式为UTF-8 无BOM的编码方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值