以下是Elasticsearch中常见的分词过滤器(Token Filter)的详细说明,基于搜索结果中的信息整理:
1.Apostrophe
• 功能:处理文本中的撇号(apostrophe),例如将“O'Reilly”转换为“oreilly”或“o reilly”。
• 应用场景:适用于处理包含撇号的名称或术语。
2.ASCII Folding
• 功能:将非ASCII字符转换为ASCII字符。例如,将“é”转换为“e”,“ü”转换为“u”。
• 应用场景:适用于需要忽略字符变音符或特殊字符的场景。
3.CJK Bigram
• 功能:将中文、日文或韩文文本拆分为相邻的字符对(bigram)。例如,“中文”会被拆分为“中”和“文”。
• 应用场景:用于提高CJK语言的分词效果。
4.CJK Width
• 功能:将全角字符转换为半角字符,或反之。
• 应用场景:适用于需要统一字符宽度的场景。
5.Classic
• 功能:执行标准的文本清理操作,如去除标点符号等。
• 应用场景:适用于通用文本处理。
6.Common Grams
• 功能:将常见短语拆分为单独的分词。例如,“New York”会被拆分为“New”和“York”。
• 应用场景:适用于需要将常见短语作为独立分词处理的场景。
7.Conditional
• 功能:根据条件动态选择分词过滤器。
• 应用场景:适用于复杂的文本处理逻辑。
8.De