ElasticSearch 系列：分词

CoLiuRs

已于 2023-04-22 00:21:42 修改

阅读量187

点赞数

分类专栏：大数据文章标签： elasticsearch

于 2021-09-24 01:27:07 首次发布

本文链接：https://blog.csdn.net/baidu_32452525/article/details/120446772

版权

9 篇文章 0 订阅

订阅专栏

分词

搜索引擎的核心是倒排索引（这里不展开讲），而倒排索引的基础就是分词。所谓分词可以简单理解为将一个完整的句子切割为一个个单词的过程。在 es 中单词对应英文为 term。我们简单看个例子：

ES 的倒排索引即是根据分词后的单词创建，即我、爱、北京、天安门这4个单词。这也意味着你在搜索的时候也只能搜索这4个单词才能命中该文档。

实际上 ES 的分词不仅仅发生在文档创建的时候，也发生在搜索的时候，如下图所示：

读时分词发生在用户查询时，ES 会即时地对用户输入的关键词进行分词，分词结果只存在内存中，当查询结束时，分词结果也会随即消失。而写时分词发生在文档写入时，ES 会对文档进行分词后，将结果存入倒排索引，该部分最终会以文件的形式存储于磁盘上，不会因查询结束或者 ES 重启而丢失。

ES 中处理分词的部分被称作分词器，英文是Analyzer，它决定了分词的规则。ES 自带了很多默认的分词器，比如Standard、 Keyword、Whitespace等等，默认是 Standard。当我们在读时或者写时分词时可以指定要使用的分词器。

    文档ID=》文档内容、单词的关联关系

     单词 =》 文档ID的关联关系

分词器是专门处理分词的组件，分词器由以下三部分组成：

一个文本会依次经过 Character Filters，Tokenizer 以及 Token Filters，这个顺序比较好理解，一个文本进来肯定要先对文本数据进行处理，再去分词，最后对分词的结果进行过滤。

ES 内置了许多分词器：

GET _analyze
{
    "analyzer": "standard",
    "text" : "hello world"
}

POST /_analyze
{
    "tokenizer": "standard", 
    "filter": ["lowercase"],
     "text" : "Hello world"
}

参考：

关注