ElasticSearch各种分词器

1. ES分词器

分词器是专门处理分词的组件,Analyzer由三部分组成:Character Filters、Tokenizer、Token Filters。

  • Character Filters:对文本原始处理,如去除html,
  • Tokenizer:按照分词器规则进行切分单词,
  • Token Filters:将切分后的单词进行加工,小写,删除空格,增加同义词等。

2. ES内置的分词器

2.1 Standard Analyzer默认分词器

按词进行切分,小写处理,停用词不做处理(the、a、is)

2.2 Simple Analyzer

简单分词器,按照非字母切分,不是字母将被过滤,符号被过滤,小写处理。

2.3 Stop Analyzer

小写处理,停用词过滤(the、a、is)

2.4 Whitespace Analyzer

按照空格切分,不做大小写处理

2.5 Keyword Analyzer

不分词,直接将输入当作输出

2.6 Patter Analyzer

正则表达式,默认\W+ (非字符分割)

2.7 其他分词器

当ElasticSearch自带的分词器无法满足时,还可以自定义分词器,可以自定义分词器,通过自组合不同的组件实现

  • Character Filter
  • Tokenizer
  • Token Filter
    在Tokenizer之前对文本进行处理,例如增加删除及替换字符。可以配置多个Character Filters。会影响Tokenizer的position和offset信息。
    一些自带的Character Filters
  • html strip 去除html标签
  • mapping 字符串替换
  • pattern replace 正则匹配替换
# 使用char filter 将-替换为_
PUT _analyze
{
  "tokenizer":"standard",
  "char_filter":[
    {
      "type": "mapping",
      "mappings": ["- => _"]
    }  
  ]
}

3. 使用analyzer api

GET /_analyze
{
  "analyzer": "standard",
  "text":"ElasticSearch learning"
}

POST books/_analyzer
{
	"field":"title",
	"text":"ElasticSearch in action"
}

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值