Elasticsearch (分词器)常用分词器和特点

Elasticsearch 分词工作原理

在 Elasticsearch 中进行行分词的需要经过分析器的3个模块,字符过滤器将文本进行替换或者删除,在由分词器进行拆分成单词,最后由Token过滤器将一些无用语气助词删掉。
在这里插入图片描述

英文分词

在Elasticsearch 中共支持5种不同的分词模式,在不同的场景下发挥不同的效果。

  • standard(过滤标点符号)
GET /_analyze
{
  "analyzer": "standard",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

  • simple (过滤数字和标点符号)
GET /_analyze
{
  "analyzer": "simple",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

  • whitespace (不过滤,按照空格分隔)
GET /_analyze
{
  "analyzer": "whitespace",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

  • stop (过滤停顿单词及标点符号,例如is are等等)
GET /_analyze
{
  "analyzer": "stop",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

  • keyword (视为一个整体不进行任何处理)
GET /_analyze
{
  "analyzer": "keyword",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

  • path hierarchy tokenizer (路径层次分词器)
POST /_analyze
{
  "tokenizer": "path_hierarchy",
  "text":"/usr/local/python/python2.7"
}

在这里插入图片描述

中文分词

因为 Elasticsearch 默认的分词器只能按照单字进行拆分,无法具体分析其语意等,所以我们使用 analysis-ik 来代替默认的分词器。

GET /_analyze
{
  "analyzer": "standard",
  "text": "程序员学elasticsearch"
}

在这里插入图片描述

使用 ik_smart
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值