ES学习记录10.2——ES分析器3(标记过滤器)

本文详细介绍了Elasticsearch中的多种内置标记过滤器，包括标准标记过滤器、ASCII折叠过滤器、长度过滤器、小写过滤器、大写过滤器、NGram过滤器、Edge NGram过滤器、Porter Stemming过滤器、Shingle过滤器、停用词过滤器和单词分隔符过滤器。这些过滤器用于修改、删除或添加标记，以优化文本分析过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作为分析器三大组成部分的另一部分，标记过滤器(token filters)是非必要的。token filters从标记生成器tokenizer那里接受标记输入流，可以用来修改(如将术语转成小写)、删除(如移除段词)或添加(如同义词)token。ES提供给了很多内置的标记过滤器，这些标记过滤器可以在自定义的分析器中使用。

1. 标准标记过滤器(Standard Token Filter)

standard标记过滤器标准化使用标准标记生成器提取的标记。目前standard标记过滤器啥事儿都没干，如果需要在将来的版本中添加某些过滤功能，它仍然是占位符。

2. ASCII码折叠标记过滤器(ASCII Folding Token Filter)

这标记过滤器名字翻译的怪怪的，asciifolding过滤器将ASCII码不在ASCII表前127内的字母、数字和Unicode符号转换为ASCII等效字符(如果存在的话)。比如：

curl -X PUT "localhost:9200/asciifold_example" -H 'Content-Type: application/json' -d'
{
   
    "settings" : {
   
        "analysis" : {
   
            "analyzer" : {
   
                "default" : {
   
                    "tokenizer" : "standard",
                    "filter" : ["standard", "asciifolding"]
                }
            }
        }
    }
}
'

asciifolding过滤器是可配置的，可接受的参数有：

preserve_original：表示是否保留原始标记以及输出折叠的标记，默认为false；

下面是栗子：

curl -X PUT "localhost:9200/asciifold_example" -H 'Content-Type: application/json' -d'
{
   
    "settings" : {
   
        "analysis" : {
   
            "analyzer" : {
   
                "default" : {
   
                    "tokenizer" :