elasticSearch核心概念的介绍(六):常见的中文分词器

常见的中文分词器和使用

在上一章介绍了几种默认的分词器的规则和使用,有兴趣的可以参考一下
elasticSearch核心概念的介绍(五):分词器的介绍和使用
在这一章我们介绍常见的中文分词器

为什么要使用中文分词器,我们可以简单来试一下。

  • 请求

    curl -X POST "http://172.25.45.150:9200/_analyze" -H 'Content-Type:application/json' -d '
    {
        "analyzer":"standard",
        "text":"火箭明年总冠军"
    }
    '
    
  • 响应

    {
        "tokens": [
            {
                "token": "火",
                "start_offset": 0,
                "end_offset": 1,
                "type": "<IDEOGRAPHIC>",
                "position": 0
            },
            {
                "token": "箭",
                "start_offset": 1,
                "end_offset": 2,
                "type": "<IDEOGRAPHIC>",
                "position": 1
            },
            {
                "token": "明",
                "start_offset": 2,
                "end_offset": 3,
                "type": "<IDEOGRAPHIC>",
                "position": 2
            },
            {
                "token": "年",
                "start_offset": 3,
                "end_offset": 4,
                "type": "<IDEOGRAPHIC>",
                "position": 3
            },
            {
                "token": "总",
                "start_offset": 4,
                "end_offset": 5,
                "type": "<IDEOGRAPHIC>",
                "position": 4
            },
            {
                "token": "冠",
                "start_offset": 5,
                "end_offset": 6,
                "type": "<IDEOGRAPHIC>",
                "position": 5
            },
            {
                "token": "军",
                "start_offset": 6,
                "end_offset": 7,
                "type": "<IDEOGRAPHIC>",
                "position": 6
            }
        ]
    }
    

    可以看到把每一个中文都进行了分词,我们通常希望它能够以词语等规则进行分词,所以这显然不是我们想要的结果

常见的分词器

  • smartCN : 一个简单的中文或英文混合文本的分词器(这里不做使用,因为用的比较少)
  • IK分词器 更智能更友好的中文分词器

这里我的es是通过docker去安装的,因此有需要的朋友可以参考

Docker安装Elasticsearch和Kibana

版本为7.4.2

安装ik分词器

  • 下载 Release v7.4.2 · medcl/elasticsearch-analysis-ik · GitHub尽量保持一致的tag

  • 进入挂载目录

    cd /mydata/elasticsearch/plugins
    
  • 创建目录

    mkdir ik
    
  • 上传ik.zip

  • 解压

    unzip ./elasticsearch-analysis-ik-7.4.2.zip
    
  • 删除压缩包

    rm -rf ./elasticsearch-analysis-ik-7.4.2.zip
    
  • 重启es

    docker restart elasticsearch
    

使用ik分词器

  • 请求
curl -X POST http://172.25.45.150:9200/_analyze -H 'Content-Type' -d '
	{
    "analyzer":"ik_max_word",
    "text":"火箭明年总冠军"
}
'
  • 响应
{
    "tokens": [
        {
            "token": "火箭",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "明年",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "总冠军",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "冠军",
            "start_offset": 5,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 3
        }
    ]
}

这就我们就能看到ik分词后的效果,达到了我们想要的效果。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈橙橙丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值