ES学习记录10.4--ES分析器(中文分词IK)

最新推荐文章于 2024-05-15 14:06:45 发布

jacksonary

最新推荐文章于 2024-05-15 14:06:45 发布

阅读量1.6k

点赞数

分类专栏： # ES Elasticsearch

本站已迁移至：https://jacksonary.github.io

本文链接：https://blog.csdn.net/jacksonary/article/details/83998060

版权

1. 安装

IK在github上的工程IK Analysis for Elasticsearch，安装IK分词器(进入ES的bin目录)，以目前学习的版本6.4为例：

elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.0/elasticsearch-analysis-ik-6.4.0.zip

注：如果版本ES版本不一样，那IK分析器也不同，只需要将上述命令中的6.4.0改成对应的版本号即可(只支持5.5.1+版本)。

2. IK Analyzer

IK Analysis插件支持内置的分析器Analyzer有：ik_smart和ik_max_word，内置的标记过生成器Tokenizer有:ik_smart和ik_max_word：

ik_smart：会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,共和国,共和,国,国歌”，穷尽各种可能的组合(在6.4.0版本不会穷尽各种可能)；
ik_max_word：会将文本做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”；

在第一步中安装IK分词器完毕后可以调用其中的Analyzer或Tokenizer进行验证，如：

curl -X POST "localhost:9200/_analyze" -H 'Content-Type: application/json' -d'
{
   
  "analyzer": "ik_smart",
  "text": "中华人民共和国国歌"
}
'

// 测试结果
{
   
    "tokens": [
        {
   
            "token": "中华人民共和国",
            "start_offset": 0,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 0
        },
        {
   
            "token": "国歌",
            "start_offset": 7,
            "end_offset": 9,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

下面是一些github上的栗子：

// 1. 创建测试索引
curl -XPUT http://localhost

最低0.47元/天解锁文章

jacksonary

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
ES学习记录10.4--ES分析器(中文分词IK)

1. 安装IK在github上的工程IK Analysis for Elasticsearch，安装IK分词器(进入ES的bin目录)，以目前学习的版本6.4为例：elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.0/elasticsear...
复制链接

扫一扫