ElasticSearch系列——分词器

分词器

分词和分词器

Analysis∶文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词
Analysis是通过Analyzer来实现的。分词就是将文档通过Analyzer分成一个一个的Term,每一个Term都指向包含这个Term的文档。

分词器的组成

  1. character filters(字符过滤器) : 在文本进行过滤前需要先进行预先处理
  2. tokenizers(分词器) : 对词句进行响应的分词
  3. token filter(token过滤器) : 将切分的单词进行加工,如大小写转化,去除介词等

在ES中默认会使用标准分词器standardAnalyer,其中英语会进行单词分词,中文则是单字分词

分词顺序

character filter ===> tokenizers ===> token filter

构成数量

character filter(大于等于0) ===> tokenizers(至少有1个) ===> token filter(大于等于0)

ES中的分词器

  1. Standard Analyzer : 默认分词器,小写处理
  2. Simple Analyzer-按照单词切分(符号被过滤),小写处理,中文按照空格进行分词
  3. Stop Analyzer -小写处理,停用词过滤(the,a,is)
  4. Whitespace Analyzer-按照空格切分,不转小写
  5. Keyword Analyzer-不分词,直接将输入当作输出

测试分词器

其中将standard修改为你要测试的即可

# 分词器
POST /_analyze
{
   
  "analyzer": "standard",
  "text": "你好我是张三 i am very happy"
}

指定分词器

分词器需要在指定映射的时候进行设置

#设置分词器
PUT /analy
{
   
  "mappings": {
   
    "properties": {
   
      
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值