Elasticsearch （分词器）常用分词器和特点

最新推荐文章于 2024-08-13 17:43:38 发布

不会不会啦

最新推荐文章于 2024-08-13 17:43:38 发布

阅读量1.1k

收藏 2

点赞数 1

文章标签： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43231632/article/details/110378477

版权

Elasticsearch 分词工作原理

在 Elasticsearch 中进行行分词的需要经过分析器的3个模块，字符过滤器将文本进行替换或者删除，在由分词器进行拆分成单词，最后由Token过滤器将一些无用语气助词删掉。
在这里插入图片描述

英文分词

在Elasticsearch 中共支持5种不同的分词模式，在不同的场景下发挥不同的效果。

standard(过滤标点符号）

GET /_analyze
{
  "analyzer": "standard",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

simple (过滤数字和标点符号)

GET /_analyze
{
  "analyzer": "simple",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

whitespace (不过滤，按照空格分隔)

GET /_analyze
{
  "analyzer": "whitespace",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

stop (过滤停顿单词及标点符号，例如is are等等)

GET /_analyze
{
  "analyzer": "stop",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

keyword (视为一个整体不进行任何处理)

GET /_analyze
{
  "analyzer": "keyword",
  "text": "The programmer's holiday is 1024!"
}

在这里插入图片描述

path hierarchy tokenizer (路径层次分词器)

POST /_analyze
{
  "tokenizer": "path_hierarchy",
  "text":"/usr/local/python/python2.7"
}

在这里插入图片描述

中文分词

因为 Elasticsearch 默认的分词器只能按照单字进行拆分，无法具体分析其语意等，所以我们使用 analysis-ik 来代替默认的分词器。

GET /_analyze
{
  "analyzer": "standard",
  "text": "程序员学elasticsearch"
}

在这里插入图片描述

使用 ik_smart
在这里插入图片描述

不会不会啦

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值