Elasticsearch---分析器（analysis）

最新推荐文章于 2024-09-20 17:09:24 发布

silmeweed

最新推荐文章于 2024-09-20 17:09:24 发布

阅读量2.2k

点赞数 3

分类专栏： Search引擎文章标签： es

本文链接：https://blog.csdn.net/silmeweed/article/details/97979571

版权

本文介绍了Elasticsearch的分析过程，包括倒排序原理、分析器的三个组成部分：字符过滤器、分词器和Token过滤器，以及各种内置和自定义分析器的详细说明。分析器在写入和查询时的作用，以及如何设置和自定义分析器。

摘要由CSDN通过智能技术生成

Elasticsearch---分析（analysis）

ES 的倒排索引即是根据分词后的单词创建，意味着在搜索的时候，匹配分词后的单词才能命中该文档。

1. 写时分词：发生在写入、更新文档时，由analysis经过分析由Tokens列表，将结果存入倒排索引。

2.读时分词：发生在用户查询时，输入的关键词进行分词，分词结果只存在内存中。

Character filter-->>Tokenizer-->>Token filters

分析器（Analyzer）由三部分构成：

字符过滤器以字符流的形式接收原始文本，并可以通过添加、删除或更改字符来转换该流。

Elasticearch只提供了三种字符过滤器：

过滤器	简称	描述	支持参数
HTML Strip Char Filter	html_strip	去除HTML元素	escaped_tags(排除的标签数组)
Mapping Char Filter	mapping	根据配置的映射配置	mappings_path(一个key => value特定格式的文件路径,相对或config文件夹)
Pattern Replace Char Filter	pattern_replace	使用java正则替换	pattern,replacement,flags

参考详情见：

一个分词器接收一个字符流，并将其拆分成单个token （通常是单个单词），并输出一个token流。

"text": "Is this déja vu?"---->Tokenizer----> tokens[...,...]

token结构：
{
   "token":"The",   //term分词，用于倒排序。
   "start_offset":0, // 所有的字符串位置信息，高亮时用到。
   "end_offset":3,
   "type":"word",
   "position":0