es自建搜索词库_Elasticsearch 常用分词器介绍与 ik 分词器自定义词库添加

本文介绍了Elasticsearch中常用的分词器,如standard、whitespace、simple、stop、keyword、pattern、language、snowball等,并详细讲解了IKAnalyzer的特性,包括最大词长切分和最小词长切分模式,以及如何添加自定义词库。此外,还提及了pinyin分词器,用于拼音匹配。
摘要由CSDN通过智能技术生成

standard

处理英文能力强

他会将词汇单元转换成小写形式,并去除停用词和标点符号

对于非英文按单字切分

whitespace

空格分析器

针对英文,仅去除空格,没有其他任何处理

不支持非英文

simple

针对英文,通过非字母字符分割文本信息,然后将词汇单元统一为小写形式

数字类型的字符会被去除

stop

StopAnalyzer 的功能超越了 SimpleAnalyzer

在 SimpleAnalyzer 的基础上增加了去除英文中的常用单词(如 the,a 等),也可以更加自己的需要设置常用单词

不支持中文

keyword

KeywordAnalyzer 把整个输入作为一个单独词汇单元,不会对文本进行任何拆分

通常是用在邮政编码、电话号码等需要全匹配的字段上

pattern

查询文本会被自动当做正则表达式处理,生成一组 terms 关键字,然后在对 Elasticsearch 进行查询

language

一个用于解析特殊语言文本的 analyzer 集合

包括:arabic,armenian, basque, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, finnish, french,galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian,persian, portuguese, romanian, russian,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值