【ELK04】ES 分词计算、IK分词器安装使用手册和热词动态更新

最新推荐文章于 2024-07-17 10:40:32 发布

Alex_81D

最新推荐文章于 2024-07-17 10:40:32 发布

阅读量1.9k

点赞数 37

分类专栏：大数据从入门到精通文章标签： elasticsearch 大数据搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Alex_81D/article/details/134414290

版权

大数据从入门到精通专栏收录该内容

50 篇文章 20 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本小结主要了解的内容是：

了解分词器的概念
掌握IK分词器和热词配置

1.分词

ES中为了方便查询,提供多维度的查询功能,对存储在索引中的文档进行分词计算,但是文本内容不同,类型不同,语言不同分词计算逻辑就不会一样.

1.1概括

文本分析使Elasticsearch能够执行全文搜索，其中搜索返回所有相关结果，而不仅仅是精确匹配.如果您搜索"王者荣耀"，您可能希望包含"王者","荣耀"和"王者荣耀"的文档，还可能希望包含相关"王"或"者"的文档。

Tokenization

该过程将文本拆分成一小块一小块,这一小块内容称之为token,大多数情况下一个token代表着一个词语;

Normalization

词条化允许在单个术语上进行匹配，但是每个标记仍然是字面上匹配的。这就意味着:

搜索"Quick"不会匹配"quick",即使你觉得或希望这样

虽然"fox"和"foxes"有着相同的词根，但是对于fox的搜索并不匹配foxes，反之亦然。

搜索"jumps"不会匹配"leaps",他们不同根,但是同义.

这些问题可以通过Normalizatin解决,将词条规范化标记.这就允许你不仅能使用精确的匹配搜索,还可以使用相关性查询.

1.2分词器

应对不同的分词计算逻辑,ES中使用了不同的底层的分词器.

standard analyzer

这是一个标准分词器,

了解本专栏

超级会员免费看

关注

37
点赞
踩
37

收藏

觉得还不错? 一键收藏
打赏
0
评论
【ELK04】ES 分词计算、IK分词器安装使用手册和热词动态更新

文本分析使Elasticsearch能够执行全文搜索，其中搜索返回所有相关结果，而不仅仅是精确匹配.如果您搜索"王者荣耀"，您可能希望包含"王者","荣耀"和"王者荣耀"的文档，还可能希望包含相关"王"或"者"的文档。ES中为了方便查询,提供多维度的查询功能,对存储在索引中的文档进行分词计算,但是文本内容不同,类型不同,语言不同分词计算逻辑就不会一样.内置的分词器可以处理一下通用场景,对于中文来讲常用的是IK分词器,ES也支持IK分词器的插件,IK分词器是基于词典的分词器,这让我们可以。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Alex_81D 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。