elasticsearch配置ik分词器插件

分词器

文本分析就是把全文本转换成一系列单词(term/token)的过程,也叫分词。在 ES 中,Analysis 是通过分词器(Analyzer) 来实现的,可使用 ES 内置的分析器或者按需定制化分析器。
分词器 接受一个字符串作为输入,将这个字符串拆分成独立的词或 语汇单元(token) (可能会丢弃一些标点符号等字符),然后输出一个 语汇单元流(token stream) 。

分词器的组成

分词器是专门处理分词的组件,一个文本进来首先对文本数据进行处理,再去分词,最后对分词的结果进行过滤。分词器有以下三部门组成:

  • Character Filters:针对原始文本处理,比如去除 html 标签
  • Tokenizer:按照规则切分为单词,比如按照空格切分
  • Token Filters:将切分的单词进行加工,比如大写转小写,删除 stopwords,增加同义语

分词API

  • 直接指定分词器分词
GET _analyze
{
    "analyzer": "standard",
    "text" : "Mastering Elasticsearch , elasticsearch in Action"
}
  • 指定索引字段分词
POST books/_analyze
{
    "field": "title",
    "text": "Mastering Elasticesearch"
}
  • 自定义分词
POST /_analyze
{
    "tokenizer": "standard", 
    "filter": ["lowercase"],
    "text": "Mastering Elasticesearch"
}

ik分词器

ik分词器采用两个分词算法:ik_smart (最少划分)和ik_max_word(最细粒度划分)

  • 安装:ik分词器下载地址:
  • 下载完毕,解压后放入elasticsearch的插件中即可
    在这里插入图片描述
  • 重启观察ES加载插件
    在这里插入图片描述
  • 使用kibana测试分词
    在这里插入图片描述
    在这里插入图片描述
  • 自定义分词器
    未定以前“我爱西红柿吻番茄”不会在一起:
    在这里插入图片描述
    自定义分词:
  1. 新建字典:
    在这里插入图片描述

  2. 在ik中配置新建字典
    在这里插入图片描述

  3. 重启ES生效并测试
    在这里插入图片描述
    如果需要配置自己的分词,就需要在自定义的dic文件中进行相关配置即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

heromps

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值