Elasticsearch分词器

最新推荐文章于 2024-06-16 09:35:23 发布

罗显明-技术个人博客

最新推荐文章于 2024-06-16 09:35:23 发布

阅读量892

点赞数

分类专栏： ELK日志服务器文章标签： elasticsearch 搜索引擎大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41910699/article/details/127838581

版权

ELK日志服务器专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、什么是分词器

二、分词器的组成

三、Elasticsearch默认分词器

四、_anlyzer API进行分词测试

一、什么是分词器

把全文本转为为一些列单词的过程，也叫分词

分词是通过分词器来实现的

注意：除了在数据写入时进行词条转化，匹配Query时，也需要使用相同的分词器对语句进行分析

二、分词器的组成

1. Character Filter：针对原始文本进行处理，例如：去除html标签
2. Tokenizer: 按照规则切分为单词
3. Token FIlter：将切分的单词进行加工。例如：大小转小写，删除stopwords,增加同义词

案例：
Master Elasticsearch & Elasticsearch in China
分词后：
master
elasticsearch
action

三、Elasticsearch默认分词器

Elasticsearch内置的分词器：
Standard Analyzer: 默认分词器，按词进行切分，小写处理
Simple Analyzer: 按照非字母进行切分，符号被过滤，小写处理
Stop Analyzer：小写处理，停用词过滤
Whitespace Analyzer: 按照空格进行切分，不转小写
Keyword Analyzer：不分词，直接将输入当做输出

还有自定义的分词器等

四、_anlyzer API进行分词测试

_analyzer API

分词测试：

GET _analyze
{
"analyzer": "standard",
"text": "Master Elasticsearch, elasticsearch in China"
}

罗显明-技术个人博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch分词器

Elasticsearch 分词的简单笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。