IK中文分词的配置和使用
目前有很多优秀的中文分词组件。本篇只以 IKAnalyzer 分词为例,讲解如何在 solr 中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易。具体就不多介绍,这里直接solr 集成 IK 的方法。
1.首先,下载IKKAnalyzer,下载 注意:以前的老的IK不支持Solr 5.3的版本,请注意下载最新的.
2. 将ik的相关文件 拷贝到 webapps\solr\WEB-INF\lib 目录下
3. 在 solr_home\mycore1\conf\schema.xml 增加如下配置
同时,把需要分词的字段,设置为text_ik
4.重启服务
注意:如果之前已经创建了索引,需要将之前的索引删除掉,重新创建分词后的索引。
5.在admin后台,analysis下查看分词的效果
1.中文分词的效果
2.索引查询的效果
6. 配置IKAnalyzer分词器的扩展词典,停止词词典
1. 将 文件夹下的IKAnalyzer.cfg.xml , ext.dic和stopword.dic 三个文件 复制到/webapps/solr/WEB-INF/classes 目录下,并修改IKAnalyzer.cfg.xml
IK Analyzer 扩展配置
ext.dic;
stopword.dic;
2. 在ext.dic 里增加自己的扩展词典,例如,婴儿奶粉3段
注意: 记得将stopword.dic,ext.dic的编码方式为UTF-8 无BOM的编码方式。