elasticSearch核心概念的介绍（六）：常见的中文分词器

陈橙橙丶

已于 2023-02-07 09:13:46 修改

阅读量850

点赞数 1

分类专栏： elasticSearch 文章标签： elasticsearch 中文分词 ik java

于 2022-02-18 20:48:07 首次发布

本文链接：https://blog.csdn.net/qq_40409260/article/details/123010856

版权

elasticSearch 专栏收录该内容

18 篇文章 15 订阅

订阅专栏

常见的中文分词器和使用

在上一章介绍了几种默认的分词器的规则和使用，有兴趣的可以参考一下
elasticSearch核心概念的介绍（五）：分词器的介绍和使用
在这一章我们介绍常见的中文分词器

为什么要使用中文分词器，我们可以简单来试一下。

请求

curl -X POST "http://172.25.45.150:9200/_analyze" -H 'Content-Type:application/json' -d '
{
    "analyzer":"standard",
    "text":"火箭明年总冠军"
}
'

响应

{
    "tokens": [
        {
            "token": "火",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<IDEOGRAPHIC>",
            "position": 0
        },
        {
            "token": "箭",
            "start_offset": 1,
            "end_offset": 2,
            "type": "<IDEOGRAPHIC>",
            "position": 1
        },
        {
            "token": "明",
            "start_offset": 2,
            "end_offset": 3,
            "type": "<IDEOGRAPHIC>",
            "position": 2
        },
        {
            "token": "年",
            "start_offset": 3,
            "end_offset": 4,
            "type": "<IDEOGRAPHIC>",
            "position": 3
        },
        {
            "token": "总",
            "start_offset": 4,
            "end_offset": 5,
            "type": "<IDEOGRAPHIC>",
            "position": 4
        },
        {
            "token": "冠",
            "start_offset": 5,
            "end_offset": 6,
            "type": "<IDEOGRAPHIC>",
            "position": 5
        },
        {
            "token": "军",
            "start_offset": 6,
            "end_offset": 7,
            "type": "<IDEOGRAPHIC>",
            "position": 6
        }
    ]
}

可以看到把每一个中文都进行了分词，我们通常希望它能够以词语等规则进行分词，所以这显然不是我们想要的结果

常见的分词器

smartCN : 一个简单的中文或英文混合文本的分词器(这里不做使用，因为用的比较少)
IK分词器更智能更友好的中文分词器

这里我的es是通过docker去安装的，因此有需要的朋友可以参考

Docker安装Elasticsearch和Kibana

版本为7.4.2

安装ik分词器

下载 Release v7.4.2 · medcl/elasticsearch-analysis-ik · GitHub尽量保持一致的tag
进入挂载目录
```
cd /mydata/elasticsearch/plugins
```
创建目录
```
mkdir ik
```
上传ik.zip

解压

unzip ./elasticsearch-analysis-ik-7.4.2.zip

删除压缩包

rm -rf ./elasticsearch-analysis-ik-7.4.2.zip

重启es
```
docker restart elasticsearch
```

使用ik分词器

请求

curl -X POST http://172.25.45.150:9200/_analyze -H 'Content-Type' -d '
	{
    "analyzer":"ik_max_word",
    "text":"火箭明年总冠军"
}
'

响应

{
    "tokens": [
        {
            "token": "火箭",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "明年",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "总冠军",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "冠军",
            "start_offset": 5,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 3
        }
    ]
}

这就我们就能看到ik分词后的效果，达到了我们想要的效果。

陈橙橙丶

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
elasticSearch核心概念的介绍（六）：常见的中文分词器

常见的中文分词器和使用在上一章介绍了几种默认的分词器的规则和使用，有兴趣的可以参考一下elasticSearch核心概念的介绍（五）：分词器的介绍和使用在这一章我们介绍常见的中文分词器为什么要使用中文分词器，我们可以简单来试一下。请求curl -X POST "http://172.25.45.150:9200/_analyze" -H 'Content-Type:application/json' -d '{ "analyzer":"standard", "tex
复制链接

扫一扫