Elasticsearch-文本分析（Text Analysis）

最新推荐文章于 2023-03-28 01:16:14 发布

七路灯

最新推荐文章于 2023-03-28 01:16:14 发布

阅读量545

点赞数

分类专栏：技术 ELK 文章标签： elk elasticsearch

本文链接：https://blog.csdn.net/lihaipeng0417/article/details/116193786

版权

22 篇文章 0 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

文本分析使Elasticsearch能够执行全文搜索，其中搜索返回所有相关结果，而不仅仅是精确匹配。
文本通过标记化（tokenization）使全文搜索成为可能，将文本分解为标记的更小块。在大多数情况下，这些标记是单个单词。

分析器（无论是内置的还是自定义的）只是一个包，其中包含三个较低级别的构建块：字符过滤器（character filters），标记生成器（tokenizers）和标记过滤器（token filters）。

索引和搜索分析器：文本分析发生在两次时间，索引时间（index time）和搜索时间（search time）。大多数情况，应在索引和搜索时使用同一台分析器，这样可以确保将字段的值和查询字符串更改为相同形式的标记。
词干化（Stemming）：词干化是将单词还原为词根形式的过程。这样可以确保在搜索过程中单词匹配的变体。如walking和walked的词根是walk。
标记图（Token graphs）：标记生成器将文本转换为标记流时，还会标记位置（position）和标记跨越的位置数（positionLength）。使用这些，可以为流创建有向无环图，称为标记图。

关注

专栏目录