IK分词器有两种分词模式:ik_max_word和ik_smart模式。
1、ik_max_word
会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
2、ik_smart
会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。
测试两种分词模式的效果:
发送:post localhost:9200/_analyze
测试ik_max_word
{“text”:“中华人民共和国人民大会堂”,“analyzer”:“ik_max_word” }
测试ik_smart
{“text”:“中华人民共和国人民大会堂”,“analyzer”:“ik_smart” }
测试见分晓:
GET _analyze
{
"analyzer": "ik_smart",
"text": ["ElasticSearch是一个基于Lucene的搜索服务器"]
}
拆分了7个词
GET _analyze
{
"analyzer": "ik_max_word",
"text": ["ElasticSearch是一个基于Lucene的搜索服务器"]
}
拆分了11个词