【Elasticsearch】token filter分词过滤器

最新推荐文章于 2025-02-23 12:49:22 发布

risc123456

最新推荐文章于 2025-02-23 12:49:22 发布

阅读量447

点赞数 5

分类专栏： Elasticsearch 文章标签： elasticsearch

本文链接：https://blog.csdn.net/risc123456/article/details/145612822

版权

以下是Elasticsearch中常见的分词过滤器（Token Filter）的详细说明，基于搜索结果中的信息整理：

1.Apostrophe

• 功能：处理文本中的撇号（apostrophe），例如将“O'Reilly”转换为“oreilly”或“o reilly”。

• 应用场景：适用于处理包含撇号的名称或术语。

2.ASCII Folding

• 功能：将非ASCII字符转换为ASCII字符。例如，将“é”转换为“e”，“ü”转换为“u”。

• 应用场景：适用于需要忽略字符变音符或特殊字符的场景。

3.CJK Bigram

• 功能：将中文、日文或韩文文本拆分为相邻的字符对（bigram）。例如，“中文”会被拆分为“中”和“文”。

• 应用场景：用于提高CJK语言的分词效果。

4.CJK Width

• 功能：将全角字符转换为半角字符，或反之。

• 应用场景：适用于需要统一字符宽度的场景。

5.Classic

• 功能：执行标准的文本清理操作，如去除标点符号等。

• 应用场景：适用于通用文本处理。

6.Common Grams

• 功能：将常见短语拆分为单独的分词。例如，“New York”会被拆分为“New”和“York”。

• 应用场景：适用于需要将常见短语作为独立分词处理的场景。

7.Conditional

• 功能：根据条件动态选择分词过滤器。

• 应用场景：适用于复杂的文本处理逻辑。

8.De

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

risc123456

关注关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Elasticsearch 】自定义分词器

在技术的广袤天地里，本博客如精准罗盘。剖析前沿科技，深掘代码奥秘，以精炼笔触，带您穿越复杂技术迷宫，速达知识彼岸。

01-30

3181

在当今数字化信息爆炸的时代，文本数据的处理和分析变得至关重要。无论是搜索引擎、信息检索系统，还是智能客服、文本挖掘等应用场景，都离不开对文本的准确理解和分析。而在这一过程中，分词作为文本处理的基础环节，其效果直接影响到后续的数据分析和应用效果。Elasticsearch 作为一款强大的分布式搜索引擎，提供了丰富的文本分析功能。然而，在实际的业务场景中，默认的分词器往往无法满足特定语言、业务需求或复杂文本处理要求。例如，在处理一些专业领域的文本时，如医学、法律等，需要根据专业术语和行业规范进行分词；

Elasticsearch(4) filter的使用

qq_29312279的博客

03-10

787

在Elasticsearch中，filter主要用于过滤文档，它与query的主要区别在于filter不计算相关性得分，而是返回简单的布尔匹配结果（匹配或不匹配），并且可以被缓存以提高性能。filter通常用于预筛选阶段，尤其是对于那些频繁使用的过滤条件。

参与评论您还未登录，请先登录后发表或查看评论

Elasticsearch过滤器——filter

andiaoqiong6043的博客

12-05

898

　　Elasticsearch中的所有的查询都会触发相关度得分的计算。对于那些我们不需要相关度得分的场景下，Elasticsearch以过滤器的形式提供了另一种查询功能。过滤器在概念上类似于查询，但是它们有非常快的执行速度，这种快的执行速度主要有以下两个原因 - 过滤器不会计算相关度的得分，所以它们在计算上更快一些 - 过滤器可以被缓存到内存中，这使...

【ElasticSearch（八）进阶】filter过滤

u012161251的博客

08-24

3699

【ElasticSearch(八)进阶】filter过滤布尔查询中的每个must、should和must not元素都称为查询子句。文档满足 must 或 should 子句中的标准的程度有助于文档的相关性得分。分数越高，文档就越符合我们的搜索条件。默认情况下，ElasticSearch返回会按照相关性得分对文档排序。 must_not 子句中的条件，影响文档是否包含在结果中。 fi...

掌握 ElasticSearch 精准查询：Term Query 与 Filter 详解

最新发布

weixin_44283682的博客

02-23

1519

Elasticsearch 作为一款强大的搜索引擎，不仅擅长全文检索，也提供了强大的精准查询功能。在本文中，我们将深入探讨两种核心的精准查询方式：**Term Query** 和 **Filter**。

Elasticsearch(十二)搜索---搜索匹配功能③--布尔查询及filter查询原理

学习不止境的博客

08-21

3920

本节主要学习ES匹配查询中的布尔查询以及布尔查询中比较特殊的filter查询及其原理。复合搜索，顾名思义是一种在一个搜索语句中包含一种或多种搜索子句的搜索。布尔查询是常用的复合查询，它把多个子查询组合成一个布尔表达式，这些子查询之间的逻辑关系是"与"，即所有子查询的结果都为true时布尔查询结果才为真。布尔查询还可以按照各个子查询的具体匹配程度对文档进行打分计算，除了比较特殊的must not查询和filter查询之外，这个后面会详解。下面将逐一进行讲解。

elasticsearch过滤器filter：原理及使用

码到三十五

06-17

1万+

在Elasticsearch 7及以上版本中，过滤器的概念已经逐渐被查询（Query）中的布尔子句（Bool Clause）所取代。尽管在之前的版本中，过滤器被用于快速筛选文档而不计算得分，但在新版本中，这种功能已经集成到了查询的布尔子句中。通过使用布尔子句中的filter子句，我们可以实现与过滤器相似的功能，同时保持查询的灵活性。通过深入了解过滤器的原理和使用方式，并结合DSL构建查询语句，我们可以更好地利用Elasticsearch进行数据检索和处理。

Elasticsearch结构化查询与过滤查询

静幽水

09-11

1100

上一篇：Elasticsearch分页和映射 Elasticsearch结构化查询与过滤查询1、term查询2、terms查询3、range查询4、exists查询5、match查询6、bool查询7、过滤查询 1、term查询 term主要用于精确匹配哪些值，比如数字，日期，布尔值或 not_analyzed的字符串(未经分析的文本数据类型)： { "term": { "age": ...

【ES】--Elasticsearch的分词器详解

寻梦友的博客

02-12

2547

最近项目需求，针对客户提出搜索引擎业务要做到自定义个性化，如输入简体或繁体能能够互相查询、有的关键词不能被分词搜索等等。为更好解决这些问题，“分词器”的原理和使用至关重要。

Elasticsearch分词器

qq_43676797的博客

06-30

812

自定义的字符串过滤器、令牌过滤器、分词器都要定义名字过滤器、令牌过滤器可定义多个//自定义字符串过滤器},//自定义令牌过滤器"filter":{"is","in","the","a","at"},//自定义分词器?]"},//自定义分析器，将自定义字符串过滤器、自定义令牌过滤器、自定义分词器赋值给分析器"char_filter":["my_char_filter"], //字符串过滤器可定义多个。

ElasticSearch 分词器

qq_50596778的博客

06-20

5386

ElasticSearch 分词器

ElasticSearch实战之Filter Query过滤查询(六)

小陈之JAVA

04-12

5066

Filter Query(过滤查询) 1.1 过滤查询其实准确来说，ES中的查询操作分为2种: 查询(query)和过滤(filter)。查询即是之前提到的query查询，它 (查询)默认会计算每个返回文档的得分，然后根据得分排序。而过滤(filter)只会筛选出符合的文档，并不计算得分，且它可以缓存文档。所以，单从性能考虑，过滤比查询更快。换句话说，过滤适合在大范围筛选数据，而查询则适...

ElasticSearch深入解析（十一）：查询和过滤器

TracyCoder的博客

10-23

1650

在 Elasticsearch 中，查询（Query）和过滤器（Filter）是用于检索和筛选数据的重要组成部分。它们虽然都能用来查找文档，但在性能和用法上有所不同。下面详细介绍查询和过滤器的概念以及它们之间的区别。

Elasticsearch filter

yuanxun4683的博客

12-29

528

Elasticsearch filter 使用filters优化查询 ElasticSearch支持多种不同类型的查询方式，这一点大家应该都已熟知。但是在选择哪个文档应该匹配成功，哪个文档应该呈现给用户这一需求上，查询并不是唯一的选择。ElasticSearch 查询DSL允许用户使用的绝大多数查询都会有各自的标识，这些查询也以嵌套到如下的查询类型中： constant_score ...

Elasticsearch：分词器中的 token 过滤器使用示例

Elastic 中国社区官方博客

09-14

1995

分词器在 Elasticsearch 的使用中非常重要。分词器中的过滤器可以帮我们对最终的分词进行处理，从而使得我们得到的最终分词会影响存储的大小和搜索的方式。在今天的文章中，我来分享一下一些常用的分词器中的 token 过滤器。更多有关过滤器的内容可以在 Elastic 的官方文档查询。有关更多关于 analyzer 的阅读，请参考我之前的文章 “Elasticsearch: analyzer”。

ElasticSearch系列 - SpringBoot整合ES：查询条件 query 和过滤条件 filter 的区别

你今天真好看呀

03-30

2899

需要注意的是，虽然过滤器（Filter）不会影响文档的相关性得分，但是当过滤器与查询条件组合使用时，查询结果仍然会根据文档与查询条件的匹配程度计算相关性得分。ElasticSearch中的过滤器（Filter）是一种用于限制查询结果范围的查询类型，它可以根据指定的条件来过滤掉不符合要求的文档，从而提高查询效率。在ElasticSearch中，过滤器（Filter）是一种用于限制查询结果范围的查询类型，它可以根据指定的条件来过滤掉不符合要求的文档，从而提高查询效率。

Elasticsearch filter过滤查询