1. 安装
IK在github上的工程IK Analysis for Elasticsearch,安装IK分词器(进入ES的bin
目录),以目前学习的版本6.4为例:
elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.0/elasticsearch-analysis-ik-6.4.0.zip
注:如果版本ES版本不一样,那IK分析器也不同,只需要将上述命令中的6.4.0
改成对应的版本号即可(只支持5.5.1+版本)。
2. IK Analyzer
IK Analysis插件支持内置的分析器Analyzer有:ik_smart
和ik_max_word
,内置的标记过生成器Tokenizer有:ik_smart
和ik_max_word
:
ik_smart
:会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,共和国,共和,国,国歌”,穷尽各种可能的组合(在6.4.0版本不会穷尽各种可能);ik_max_word
:会将文本做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”;
在第一步中安装IK分词器完毕后可以调用其中的Analyzer或Tokenizer进行验证,如:
curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d'
{
"analyzer": "ik_smart",
"text": "中华人民共和国国歌"
}
'
// 测试结果
{
"tokens": [
{
"token": "中华人民共和国",
"start_offset": 0,
"end_offset": 7,
"type": "CN_WORD",
"position": 0
},
{
"token": "国歌",
"start_offset": 7,
"end_offset": 9,
"type": "CN_WORD",
"position": 1
}
]
}
下面是一些github上的栗子:
// 1. 创建测试索引
curl -XPUT http://localhost