Elasticsearch之分析（analysis）和分析器（analyzer）。

最新推荐文章于 2024-07-09 15:52:30 发布

软件求生

最新推荐文章于 2024-07-09 15:52:30 发布

阅读量1.5w

点赞数 1

分类专栏： # Elasticsearch 文章标签： elasticsearch 搜索

Elasticsearch 专栏收录该内容

29 篇文章 4 订阅

订阅专栏

分析（analysis）是这样一个过程：

首先，表征化一个文本块为适用于倒排索引单独的词（term）。
然后标准化这些词为标准形式，提高他们的“可搜索性”或“查全率” 。

这个工作是分析器（analyzer）完成的。一个分析器（analyzer）只是一个包装用于将三个功能放到一个包里：

字符过滤器

首先字符串经过过滤器（character filter），他们的工作是在表征化（注：这个词叫做断词更适合）前处理字符串。字符过滤器能够去除HTML标记，或者转化为“&”为“and”。

分词器

下一步，分词器（tokenizer）被表征化（断词）为独立的词。一个简单的分词器（tokenizer）可以根据空格或逗号将单词分开（注：这个在中文中不适用）。

表征过滤

最后，每个词都通过所有表征过滤（token filters），他可以修改词（例如将“Quick”转为小写），去掉词（例如停用词像“a”、“and”、“the”等等），或者增加词（例如同义词像“a”、“and”、“the”等等）或者增加词（例如同义词像“jump”和“leap”）。

內建的分析器

不过，Elasticsearch还附带了一些预装的分析器，你可以直接使用它们。下面我们列出了最重要的几个分析器，来演示这个字符串分词后的表现差异：

标准分析器

标准分析器是Elasticsearch默认使用的分析器。对于文本分析，它对于任何语言都是最佳选择（注：就是没啥特殊需求，对于任何一个国家的语言，这个分析器就够用了）。它根据Unicode Consortium的定义的单词边界（word boundaries）来切分文本，然后去掉大部分标点符号。最后。把所有词转为小写。产生的结果为：

简单分析器

简单分析器将非单个字母的文本切分，然后把每个词转化为小写。产生的结果为：

空格分析器

空格分析器依据空格切分文本。他不转换小写。产生结果为：

语言分析器

特定语言分析器适用于很多语言。他们能够考虑到特定语言的特性。例如English分析器自带一套语言停用词库——像and或the这些与语义无关的通用词。这些词被移除后，因为语法规则的存在，英语单词的主体含义依旧能被理解（注：stem English word，大概意思应该是将英语语句比作一株植物，去掉无用的枝叶，主干依旧存在，停用词好比枝叶，存在与否并不影响对这句话的理解。）。

English分析器将会产生以下结果：

注意“transparent”、“calling”和“set_trans”是如何转为词干的。