ElasticSearch 中文分词 ik

本文介绍了Elasticsearch的内置分词器,如Standard、Simple、Stop和Keyword等,以及它们在处理英文数据上的适用性。对于中文分词,文章指出内置分词器的不足,并推荐使用IK分词器。通过安装和配置IK分词器,可以实现更精准的中文分词,如ik_smart和ik_max_word两种模式。
摘要由CSDN通过智能技术生成

一、前言

把一段文字的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作。
默认的中文分词是将每个字看成一个词,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

Elasticsearch之所以模糊查询这么快,是因为采用了倒排索引,而倒排索引的核心就是分词,把text格式的字段按照分词器进行分词并编排索引。为了发挥自己的优势,Elasticsearch已经提供了多种功能强大的内置分词器,它们的作用都是怎样的呢?

二、内置分词器解析

分词器作用
StandardES默认分词器,按单词分类并进行小写处理
Simple按照非字母切分,然后去除非字母并进行小写处理
Stop按照停用词过滤并进行小写处理,停用词包括the、a、is
Whitespace按照空格切分
Language据说提供了30多种常见语言的分词器
Patter按照正则表达式进行分词,默认是\W+ ,代表非字母
Keyword不进行分词,作为一个整体输出

    这些内置分词器擅长处理单词和字母,所以如果咱们要处理的是英文数据的话,它们的功能可以说已经很全面了!那处理中文效果怎么样呢?下面咱们举例验证一下。

参考:ElasticSearch中文分词,看这一篇就够了_静待花开-CSDN博客_elasticsearch 中文分词

三、安装 ik 分词器

注:ik 分词器下载地址https://github.com/medcl/elasticsearch-analysis-ik/releases

1. 解压

unzip elasticsearch-analysis-ik-7.3.2.zip

移动到 es 的 plugins/ik 目录后解压

2. 重启 es

3. plugins/ik/config 下的 main.dic 文件包含所有可分词的中文 27 万多

四、ik 分词器默认两种分词器:ik_smart:最少切分 和 ik_max_word:最细粒度切分(穷尽所有可能)

 设置自己的分词器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值