三、es分词器

最新推荐文章于 2024-07-14 10:41:17 发布

喵了个咪的回忆丶

最新推荐文章于 2024-07-14 10:41:17 发布

阅读量3k

点赞数 1

分类专栏： es 文章标签： elasticsearch

本文链接：https://blog.csdn.net/dl674756321/article/details/119979708

版权

es 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一、内置分词器

es内置分词器对中文很不友好，处理方式为：一个字一个词。

es的内置分词器：

Standard Analyzer：默认分词器，按词切分，小写处理
Simple Analyzer：按照非字母切分（符号被过滤），小写处理
Stop Analyzer：停用词过滤（the，a，is），小写处理
Whitespace Analyzer：按照空格切分，不转小写
Keyword Analyzer：直接将输入当做输出，不分词
Patter Analyzer：正则表达式，默认 \W+（非字符分割）
Language：提供了30多种常见语言的分词器

# 默认标准分词器
GET _analyze
{
  "analyzer": "standard",
  "text": ["我爱北京天安门!","it is so beautiful?"]
}

二、安装中文分词器：IK

IKAnalyzer是一个开源的、基于java开发的轻量级中文分词工具包

下载：

在iterm2中进入elasticsearch-7.6.2路径
输入下面命令来下载ik（命令中的两个7.6.2对应的es的版本号）

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip

其他版本的下载地址链接为：https://github.com/medcl/elasticsearch-analysis-ik/releases?after=v7.9.1

三、使用IK分词器

IK分词器有两种分词模式：ik_max_word和ik_smart模式

ik_max_word模式会对文本进行最细粒度的拆分，比如将华为手机分为华为、手、手机
ik_smart模式是粗粒度的，将华为手机分为华为、手机。

# 默认标准分词器
GET _analyze
{
  "analyzer": "standard",
  "text": ["我爱北京天安门!","it is so beautiful?"]
}

# ik分词器，粗粒度
GET _analyze
{
  "analyzer": "ik_smart",
  "text": ["我爱北京天安门!","it is so beautiful?"]
}

# ik分词器，细粒度
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": ["我爱北京天安门!","it is so beautiful?"]
}

喵了个咪的回忆丶

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
三、es分词器

一、内置分词器es内置分词器对中文很不友好，处理方式为：一个字一个词。es的内置分词器：Standard Analyzer：默认分词器，按词切分，小写处理Simple Analyzer：按照非字母切分（符号被过滤），小写处理Stop Analyzer：停用词过滤（the，a，is），小写处理Whitespace Analyzer：按照空格切分，不转小写Keyword Analyzer：直接将输入当做输出，不分词Patter Analyzer：正则表达式，默认 \W+（非字符分割）Lan
复制链接

扫一扫

专栏目录