ElasticSearch 中的中文分词器(三)

一、 内置分词器

ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es。查询分析则主要分为两个步骤:

  1. 词条化:分词器将输入的文本转为一个一个的词条流。
  2. 过滤:比如停用词过滤器会从词条中去除不相干的词条(的,嗯,啊,呢);另外还有同义词过滤器、小写过滤器等。

ElasticSearch 中内置了多种分词器可以供使用。

分词器

作用

Standard Analyzer

标准分词器使用于英语

Simple Analyzer

简单分词器,基于非字母字符进行分词,将单词转化为小写字母

Whitespace Analyzer

空格分词器,会依据空格进行分词

Stop Analyzer

类似于简单分词器,但是添加了停用词的功能

KeyWord Analyzer

关键词分词器,输入文本等于输出文本

Pattern Analyzer

利用正则表达式切分

Language Analyzer

正对于特定语言分词

Fingerprint Analyzer

指纹分析仪分词器,通过创建标记进行重复检测

二、中文分词器

在 Es 中,使用较多的中文分词器是 elasticsearch-analysis-ik,这个是 es 的一个第三方插件,代码托管在 GitHub 上:

https://github.com/medcl/elasticsearch-analysis-ik

三、安装中文分词器

两种使用方式:(选择分词器版本是尽量选择和es版本一致的)

  • 第一种

    1、首先打开分词器官网:https://github.com/medcl/elasticsearch-analysis-ik。
    2、在 https://github.com/medcl/elasticsearch-analysis-ik/releases 页面找到最新的正式版,下载下来。我们这里的下载链接是 https://github.91chi.fun//https://github.com//medcl/elasticsearch-analysis-ik/releases/download/v7.16.0/elasticsearch-analysis-ik-7.16.0.zip。
    3、将下载文件解压。
    4、在 es/plugins 目录下,新建 ik 目录,并将解压后的所有文件拷贝到 ik 目录下。
    5、重启 es 服务。

  • 第二种

    ./bin/elasticsearch-plugin install https://github.91chi.fun//https://github.com//medcl/elasticsearch-analysis-ik/releases/download/v7.16.0/elasticsearch-analysis-ik-7.16.0.zip

安装成功
在这里插入图片描述

四、测试中文分词器

  1. es 重启成功后,首先创建一个名为 test 的索引:
    在这里插入图片描述
  2. 在该索引中进行分词测试:
    不用分词器在这里插入图片描述
    使用分词器
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值