【Elasticsearch】token filter分词过滤器

以下是Elasticsearch中常见的分词过滤器(Token Filter)的详细说明,基于搜索结果中的信息整理:

1.Apostrophe

• 功能:处理文本中的撇号(apostrophe),例如将“O'Reilly”转换为“oreilly”或“o reilly”。

• 应用场景:适用于处理包含撇号的名称或术语。

2.ASCII Folding

• 功能:将非ASCII字符转换为ASCII字符。例如,将“é”转换为“e”,“ü”转换为“u”。

• 应用场景:适用于需要忽略字符变音符或特殊字符的场景。

3.CJK Bigram

• 功能:将中文、日文或韩文文本拆分为相邻的字符对(bigram)。例如,“中文”会被拆分为“中”和“文”。

• 应用场景:用于提高CJK语言的分词效果。

4.CJK Width

• 功能:将全角字符转换为半角字符,或反之。

• 应用场景:适用于需要统一字符宽度的场景。

5.Classic

• 功能:执行标准的文本清理操作,如去除标点符号等。

• 应用场景:适用于通用文本处理。

6.Common Grams

• 功能:将常见短语拆分为单独的分词。例如,“New York”会被拆分为“New”和“York”。

• 应用场景:适用于需要将常见短语作为独立分词处理的场景。

7.Conditional

• 功能:根据条件动态选择分词过滤器。

• 应用场景:适用于复杂的文本处理逻辑。

8.De

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值