一、什么是IK分词器?
分词:即把一段中文或英文划分成一个个的关键字,我们在搜索时会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作。默认的中文分词是将每个字看成一个词,比如“今天真快乐”被分成今、天、真、快、乐,显然不符合要求,所以我们需要安装IK中文分词器,根据配置的.dic字典文件来进行分词。
IK提供了两个分词算法:ik_smart 最少切分,ik_max_word 最细粒度划分。
二、IK分词器的安装
-
下载ik,解压放到ES的插件文件夹中。
-
以管理员方式启动ES,观察IK分词器插件被加载了!如果访问ik失败,观察路径是否有空格,会被特殊编码。
(可以使用elasticsearch-plugin命令来查看加载进来的插件) -
使用kibana测试不同的分词效果
ik_smart 为最少切分,就相当于断句,每个词只出现一次。
ik_max_word为最细粒度划分,按配置的字典词库来划分,穷尽所有可能的词组合,每个字可以出现多次。
我们可以自己配置字典词库,按照我们的配置来划分词!
- 在ik配置文件夹中,加入自己的字典库myword.dic
- 进入IKAnalyzer.cfg.xml填上自己配置的字典库