elasticsearch中分词器edge_ngram和ngram的区别

最新推荐文章于 2025-03-26 17:39:29 发布

私念

最新推荐文章于 2025-03-26 17:39:29 发布

阅读量1.6k

点赞数

分类专栏： elasticsearch

本文链接：https://blog.csdn.net/tiancityycf/article/details/114847911

版权

elasticsearch 专栏收录该内容

43 篇文章

订阅专栏

本文介绍Elasticsearch中的ngram与edge_ngram分词器的原理及配置方法，并对比两者之间的区别，帮助理解如何根据需求选择合适的分词器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://www.phpmianshi.com/?id=199

简介

edge_ngram和ngram是ElasticSearch自带的两个分词器，一般设置索引映射的时候都会用到，设置完步长之后，就可以直接给解析器analyzer的tokenizer赋值使用。

场景

用 Elasticsearch 处理通配符查询不太适合，推荐用分词器 NGram，这个分词器可以让通配符查询和普通的查询一样迅速，因为该分词器在数据索引阶段就把所有工作做完了

示例

若要使用 NGram 分词器作为某个字段的分词器，可在索引创建时指定，也可以更新映射关系，以下展示如何在索引创建时指定 NGram 分词器。

{
    "settings": {
        "analysis": {
            "analyzer": {
                "ngram_analyzer": {
                    "tokenizer": "ngram_tokenizer"
                }
            },
            "tokenizer": {
                "ngram_tokenizer": {
                    "type": "ngram",
                    "min_gram": 1,
                    "max_gram": 30,
                    "token_chars": [
                        "letter",
                        "digit"
                    ]
                }
            }
        }
    },
    "mappings": {
        "_default_": {
            "properties": {
                "Name": {
                    "type": "string",
                    "analyzer": "ngram_analyzer"
                }
            }
        }
    }
}

当某个字段的 analyzer 被指定为 ngram_analyzer，这个字段的查询就都会变成通配符查询，无论是 term 还是 match。

比如

POST /my_index/_search
{
    "query": {
        "term": {
            "Name": "工商"
        }
    }
}

会得到"中国工商银行XXX分行"。

比如

POST /my_index/_search
{
    "query": {
        "match": {
            "Name": "工商"
        }
    }
}

会得到"中国工商银行XXX分行"、"工行XXX分行"、"中国招商银行XXX分行"。
match 查询会对关键词进行分词，而 Lucene 的默认中文分词就是把每个中文字拆开，这样会变成对"工"、"商"两个字做通配符查询。

分词器edge_ngram和ngram的区别

我们统一用字符串来做分词示例：

edge_ngram分词器，分词结果如下：

{
    "tokens": [{
            "token": "字",
            "start_offset": 0,
            "end_offset": 1,
            "type": "word",
            "position": 0
        },
        {
            "token": "字符",
            "start_offset": 0,
            "end_offset": 2,
            "type": "word",
            "position": 1
        },
        {
            "token": "字符串",
            "start_offset": 0,
            "end_offset": 3,
            "type": "word",
            "position": 2
        }
    ]
}

ngram分词器，分词结果如下：

{
    "tokens": [{
            "token": "字",
            "start_offset": 0,
            "end_offset": 1,
            "type": "word",
            "position": 0
        },
        {
            "token": "字符",
            "start_offset": 0,
            "end_offset": 2,
            "type": "word",
            "position": 1
        },
        {
            "token": "字符串",
            "start_offset": 0,
            "end_offset": 3,
            "type": "word",
            "position": 2
        },
        {
            "token": "符",
            "start_offset": 1,
            "end_offset": 2,
            "type": "word",
            "position": 3
        },
        {
            "token": "符串",
            "start_offset": 1,
            "end_offset": 3,
            "type": "word",
            "position": 4
        },
        {
            "token": "串",
            "start_offset": 2,
            "end_offset": 3,
            "type": "word",
            "position": 5
        }
    ]
}