IK分词器的安装

最新推荐文章于 2023-03-30 03:00:48 发布

#小蚂蚁

最新推荐文章于 2023-03-30 03:00:48 发布

阅读量161

点赞数

分类专栏：关于ElasticSearch 文章标签： es

本文链接：https://blog.csdn.net/qq_44621891/article/details/110942855

版权

关于ElasticSearch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

IK安装

注意：ik分词器版本必须与ElaticSearch版本严格一致

1、下载

https://github.com/medcl/elasticsearch-analysis-ik/tree/6.x

2、解压后进入\elasticsearch-analysis-ik-6.x目录，使用cmd，maven进行打包
mvn clean
mvn compile
mvn package
3、去此elasticsearch-analysis-ik/target/releases/目录下找到你对应的ElaticSearch版本的zip,上传值linux
4、unzip 解压上传的zip,
5、将解压出的文件夹，直接移动到ElaticSerach/plugins目录下即可
6、重启ElaticSearch
（安装成功效果图，ik分词器加载成功）
测试IK分词器(ik_smart)(ik_max_word)

//ik_smart
GET _analyze
{
  "text": ["中华人民共和国国歌"],
  "analyzer": "ik_smart"
}
//执行结果
{
  "tokens": [
    {
      "token": "中华人民共和国",
      "start_offset": 0,
      "end_offset": 7,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "国歌",
      "start_offset": 7,
      "end_offset": 9,
      "type": "CN_WORD",
      "position": 1
    }
  ]
}
//ik_max_word
GET _analyze
{
  "text": ["中华人民共和国国歌"],
  "analyzer": "ik_max_word"
}
//执行结果
{
  "tokens": [
    {
      "token": "中华人民共和国",
      "start_offset": 0,
      "end_offset": 7,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "中华人民",
      "start_offset": 0,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 1
    },
    {
      "token": "中华",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 2
    },
    {
      "token": "华人",
      "start_offset": 1,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "人民共和国",
      "start_offset": 2,
      "end_offset": 7,
      "type": "CN_WORD",
      "position": 4
    },
    {
      "token": "人民",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 5
    },
    {
      "token": "共和国",
      "start_offset": 4,
      "end_offset": 7,
      "type": "CN_WORD",
      "position": 6
    },
    {
      "token": "共和",
      "start_offset": 4,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 7
    },
    {
      "token": "国",
      "start_offset": 6,
      "end_offset": 7,
      "type": "CN_CHAR",
      "position": 8
    },
    {
      "token": "国歌",
      "start_offset": 7,
      "end_offset": 9,
      "type": "CN_WORD",
      "position": 9
    }
  ]
}

官方回答
ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合，适合 Term Query；
ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”，适合 Phrase 查询。

#小蚂蚁

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
IK分词器的安装

IK安装1、下载2、解压后进入`\elasticsearch-analysis-ik-6.x`目录，使用cmd，maven进行打包3、去此`elasticsearch-analysis-ik/target/releases/`目录下找到你对应的ElaticSearch版本的zip,上传值linux4、unzip 解压上传的zip,5、将解压出的文件夹，直接移动到ElaticSerach/plugins目录下即可6、重启ElaticSearch注意：ik分词器版本必须与ElaticSearch版本严格一致
复制链接

扫一扫