Elasticsearch分词器

最新推荐文章于 2024-08-13 17:43:38 发布

古月充电器

最新推荐文章于 2024-08-13 17:43:38 发布

阅读量424

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27017129/article/details/104726197

版权

elasticsearch 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

什么是分词器?
分词器:elasticsearch执行分词的主体，分为三大部分:Character Filters，Tokenizers，Token Filters

Character Filter（字符过滤器）

注意：Character Filter可以有n个(n=0)
字符过滤器通过字符流(以最小单位读取)的形式接收文本，通过新增，删除，修改字符来转换该流
比如：去掉文本中的html标签，

Tokenizers（分词器）

注意：Tokenizers只能有1个
按照规则去切分单词
比如:I am charger ---->I,am,charger

Token filters （token过滤器）

注意：Token filters可以有n个(n=0)
将切分的单词进行处理，比如删除，大小写转换

elasticsearch中的分词器有哪些？

Standard Analyer ---->默认分词器，按词切分，小写处理
Simple Analyer ---->按照非字母切分(符号会被过滤)，小写处理
Stop Analyer ----->小写处理，停用词过滤
Whitespace Analyer ---->按照空格切分，不转小写
Keword Analyer ---->不分词，直接把输入当作输出
Pattern Analyer ----->正则表达式，默认\W+（非字母进行分隔）
Language ----->支持三十多种语言
Customer Analyer -------->自定义分词器

采用postman演示各个分词器效果：

1.Standard Analyer(默认分词器，按词切分，小写处理) 在这里插入图片描述
2.Simple Analyer（按照非字母切分(符号会被过滤)，小写处理）

3.Stop Analyer（小写处理，停用词过滤）

英文:a、an、the、of
中文:的、了、着、是、标点符号等
点击查看英文停用词
 点击查看中文停用词
4.Whitespace Analyer（按照空格切分，不转小写）

5.Keword Analyer(不分词，直接把输入当作输出)

6.Pattern Analyer（正则表达式，默认\W+（非字母进行分隔））

推荐两种中文分词器:

icu

ik

自行到es安装根目录输入命令:./bin/elasticsearch-plugin install analysis-icu

古月充电器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

古月充电器 CSDN认证博客专家 CSDN认证企业博客

码龄9年

7: 原创

108万+: 周排名

179万+: 总排名

2855: 访问

: 等级

104: 积分

1: 粉丝

1: 获赞

4: 评论

1: 收藏

私信

关注

热门文章

分类专栏

笔记
elasticsearch 7篇

最新评论

elasticsearch的基本增删改查
古月充电器回复 huxin889: 我学的是7，对于格式那块你讲的不符合7的写法
elasticsearch的基本增删改查
古月充电器回复 huxin889: 难道说是版本差异吗，对于update操作，我上面的没有问题，
elasticsearch的基本增删改查
古月充电器回复 huxin889: 第一个问题在第二点的后面有个括号注释，后面的细节确实要补充一下的，大佬牛逼
elasticsearch的基本增删改查
huxin889: 2.新增文档自定义id指定op_type=create(不指定默认为update) 这点不是很准备，不是update 而是index,当文档存在时会先删除原先的文档，再新增文档，version + 1; 当文档不存在时，会新增一个文件；真正的update的格式 /user/_doc/1/_update (deprecated) 或者 /user/_udate/1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。