es进行分词测试以及自定义分词

最新推荐文章于 2024-06-10 12:03:29 发布

小六神通

最新推荐文章于 2024-06-10 12:03:29 发布

阅读量1.7w

点赞数 6

分类专栏： ELKB

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/metheir/article/details/85850327

版权

本文介绍了Elasticsearch中分词器的工作原理，包括character filter、tokenizer和tokenizer filter的职责，并展示了如何在创建或更新文档、查询时进行分词处理。重点讨论了如何测试分词效果，包括指定analyzer、字段测试和自定义分词器测试。同时，详细阐述了如何自定义分词器并在索引配置中设定，通过实例进行了验证。

摘要由CSDN通过智能技术生成

前言：

es中的分词器由三部分组成

1、character filter:作用：先对要进行分析的文本进行一下过滤，比如html文档，去除其中的标签，比如<p>、<html>等等；

2、tokenizer:作用：对文本进行分词，把要进行分析的文本根据所指定的规则，按照其规则把文本拆分为单词,，只可以指定一个；

3、tokenizer filter:作用：把分好的词条（也即将tokenizer分好的词）进一步进行过滤，根据指定的filter把其识别的没用的词条给删除，或者增加（比如增加某些词的同义词）、修改（比如将testing、tested这种词同意为test）词条，可以指定多个。

[分词使用场景]：

创建或者更新文档时候，会对相应的文档进行分词处理
查询时，会对查询语句进行分词
注意，index时所用的分词器和查询时所用的分词器可不一样，可通过"analyzer"指定index时分词器，通过"search_analyzer"指定查询时分词器，但建议是设置成一样的，不然不利于查询（”put test_index{"mappings":{"

最低0.47元/天解锁文章

关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
es进行分词测试以及自定义分词

前言：es中的分词器由三部分组成1、character filter:作用：先对要进行分析的文本进行一下过滤，比如html文档，去除其中的标签，比如&lt;p&gt;、&lt;html&gt;等等；2、tokenizer:作用：对文本进行分词，把要进行分析的文本根据所指定的规则，按照其规则把文本拆分为单词,，只可以指定一个；3、tokenizer filter:作用：把分好的词条（...
复制链接

扫一扫

专栏目录

小六神通 CSDN认证博客专家 CSDN认证企业博客

码龄8年

68: 原创

5万+: 周排名

61万+: 总排名

65万+: 访问

: 等级

5689: 积分

55: 粉丝

209: 获赞

45: 评论

672: 收藏

私信

关注

热门文章

分类专栏

C语言 4篇
C++ 14篇
Go语言 24篇
Python 3篇
微服务 1篇
kubernetes(k8s) 10篇
Docker 3篇
ELKB 5篇
Redis 3篇
Linux 16篇
开源项目学习 1篇
算法与数据结构 10篇
数据库 22篇
网络知识 17篇
Linux网络编程 2篇
操作系统 4篇
Git 9篇
服务端 3篇
读书笔记 10篇
笔试面试知识总结 1篇
蓝桥杯编程题 6篇
笔记 12篇
杂谈 2篇
架构设计 1篇
随手记 5篇
shell

最新评论

k8s aggregated api的编写思路
CSDN-Ada助手: 非常感谢CSDN博主分享关于k8s aggregated api的编写思路，这篇博客对于正在学习k8s的同学来说非常有帮助。我觉得下一篇博客可以围绕k8s的自动化运维展开，比如如何利用k8s进行自动化部署、自动扩容等方面的实践经验，这样的技术文章对其他用户也将会非常有价值。期待更多精彩的内容！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
程序猿口中的hook是什么意思？
这样啊812: 什么东西，我一点那个简书链接，他就给我跳到了淘宝
k8s aggregated api的编写思路
装满map的哈希: 删了吧
程序猿口中的hook是什么意思？
阿唯不知道: 快，勾住它
C++五个内存分区详解~
m0_53903451: 我觉得应该是由malloc和底层用malloc实现的new分配的空间在堆上

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。