ElasticSearch安装ik分词器

最新推荐文章于 2024-08-23 14:17:45 发布

朝花不迟暮

最新推荐文章于 2024-08-23 14:17:45 发布

阅读量314

点赞数

分类专栏：笔记文章标签： elasticsearch

本文链接：https://blog.csdn.net/Curtisjia/article/details/113361298

版权

笔记专栏收录该内容

29 篇文章 1 订阅

订阅专栏

本文介绍了如何安装和使用IK分词器来提升Elasticsearch中的中文分词效果。通过对比未使用IK分词器前后的分词结果，展示了IK_max_word分词模式如何实现更精确的分词，从而提高搜索匹配度。

摘要由CSDN通过智能技术生成

IK分词器

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词,比如"我爱技术"会被分为"我",“爱”,“技”,“术”,这显然不符合要求,所以我们需要安装中文分词器IK来解决这个问题。
IK提供了两个分词算法:ik_smart和ik_max_word
其中ik_smart为最少切分,ik_max_word为最细粒度划分

安装ik分词器

ik分词器的安装要和自己es的版本保持一致，官网地址：https://github.com/medcl/elasticsearch-analysis-ik/releases
我自己安装的是7.1.0，所以如果版本一致，可以从我这里拿，更快！
https://wws.lanzous.com/i6zzll0460b
密码:7zo8

将ik分词器上传到服务器上，然后解压，并改名字为ik

# 解压
unzip elasticsearch-analysis-ik-5.6.8.zip
# 改名
mv elasticsearch ik

将ik目录拷贝到docker容器的plugins目录下

docker cp ./ik changgou_elasticsearch:/usr/share/elasticsearch/plugins

docker restart [CONTAINER ID]

测试

打开postman，post请求http://192.168.0.118:9200/_analyze

{
    "analyzer": "ik_max_word",
    "text": "我是程序员"
}

未使用ik分词器返回结果：

{
    "tokens": [
        {
            "token": "我",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<IDEOGRAPHIC>",
            "position": 0
        },
        {
            "token": "是",
            "start_offset": 1,
            "end_offset": 2,
            "type": "<IDEOGRAPHIC>",
            "position": 1
        },
        {
            "token": "程",
            "start_offset": 2,
            "end_offset": 3,
            "type": "<IDEOGRAPHIC>",
            "position": 2
        },
        {
            "token": "序",
            "start_offset": 3,
            "end_offset": 4,
            "type": "<IDEOGRAPHIC>",
            "position": 3
        },
        {
            "token": "员",
            "start_offset": 4,
            "end_offset": 5,
            "type": "<IDEOGRAPHIC>",
            "position": 4
        }
    ]
}

使用ik分词器之后返回的结果：

{
    "tokens": [
        {
            "token": "我",
            "start_offset": 0,
            "end_offset": 1,
            "type": "CN_CHAR",
            "position": 0
        },
        {
            "token": "是",
            "start_offset": 1,
            "end_offset": 2,
            "type": "CN_CHAR",
            "position": 1
        },
        {
            "token": "程序员",
            "start_offset": 2,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "程序",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "员",
            "start_offset": 4,
            "end_offset": 5,
            "type": "CN_CHAR",
            "position": 4
        }
    ]
}