Elasticsearch-通过Analyzer进行分词

1、Analysis 与 Analyzer

  • Analysis—文本分析是把全文本转换一系列单词(term / token)的过程,也叫分词
  • Analysis是通过Analyzer来实现的

° 可使用Elasticsearch内置的分析器/或者按需定制化分析器

• 除了在数据写入时转换词条,匹配Query语句时候也需要用相同的分析器对查询语句进行分析

2、Analyzer的组成

• 分词器是专门处理分词的组件,Analyzer由三部分组成

Character Filters (针对原始文本处理,例如去除html)/ Tokenizer (按照规则 切分为单词)/ Token Filter (将切分的的单词进行加工,小写,删除stopwords,增加同义词)

3、Elasticsearch的内置分词器

  • Standard Analyzer 一默认分词器,按词切分,小写处理
  • Simple Analyzer 一按照非字母切分(符号被过滤),小写处理
  • Stop Analyzer 一小写处理,停用词过滤(the, a, is)
  • Whitespace Analyzer —按照空格切分,不转小写
  • Keyword Analyzer —不分词,直接将输入当作输出
  • Patter Analyzer —正则表达式,默认\W+ (非字符分隔)
  • Language-提供了30多种常见语言的分词器
  •     Customer Analyzer自定义分词器

4、使用 _analyzer API

5、Elasticsearch的内置分析器

  • Standard Analyzer 一默认分词器,按词切分,小写处理
  • Simple Analyzer 一按照非字母切分(符号被过滤),小写处理
  • Stop Analyzer 一小写处理,停用词过滤(the, a, is)
  • Whitespace Analyzer —按照空格切分,不转小写
  • Keyword Analyzer —不分词,直接将输入当作输出
  • Patter Analyzer —正则表达式,默认\W+ (非字符分隔)
  • Language-提供了30多种常见语言的分词器

5.1 Standard Analyzer

5.2 Simple Analyzer

5.3 Stop Analyzer

5.4  Whitespace Analyzer

5.5 Keyword Analyzer

5.6 Patter Analyzer

5.8 Language

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值