Elasticsearch 所有内置分词器介绍(6)

最新推荐文章于 2024-05-21 14:36:48 发布

花阴偷移

最新推荐文章于 2024-05-21 14:36:48 发布

阅读量321

点赞数 5

文章标签： elasticsearch jenkins 大数据搜索引擎全文检索

本文链接：https://blog.csdn.net/weixin_43394129/article/details/138624299

版权

一.概述

　　Tokenizer分词器接收字符流(es的text类型)，将其分解为单个term(通常是单个单词), 然后输出标记流。分词器除了分解，还负责记录以下内容：

　　　　1)记录每个单词(term)的顺序或位置(用于”phrase短语“和单词邻近性查询)

　　　　2)term原始单词的开始和结束字符偏移量(使用 ”highlighting 高亮“ 搜索显示)

　　　　3)token类型,生成每个term的分类。例如：字母、数字。

　　Elasticsearch有许多内置的Tokenizer，可用于构建自定义的Tokenizer。Tokenizer有三种分类：

　　　　1)面向单词的分词器，这种分析器是将文本拆分为一个个的单词。

　　　　2)部分单词的分词器，这种分析器是将文本拆分为任意组合的字母(通过配置1~n个)。

　　　　3)结构化文本的分词器，该类型分词器通常与结构化文本一起使用，例如：邮件地址、邮政编码。

　　分析器与分词器关系总结：

　　　　前面章节有讲到一个分析器的组合包含：一个Tokenizer分词器(必需)，0或多个charactcr filter、 0或多个token filter。

　　　　对于Elasticsearch内置的许多分析器和分词器，二者的名称许多都一样。如： Standard分析器和Standard分词器，它们之间的关系是Standard分析器包含了一个Standard分词器。

　　　　对于分析器与分词器，可以直接使用内置的，也都可以是创建自定义的。

二. 面向单词的分词器　　

　　2.1 Standard Tokenizerc(标准分词器)

　　　　Standard分析器包含了Standard 分词器，这里不再举例，参考：Elasticsearch 所有内置分析器介绍(5)

　　2.2 Letter Tokenizer(字母分词器)

　　　　分词规则是：遇到字符时(如空格、下划线等)拆分。合适欧洲语言，但对于一些亚洲语言来说单词是不用空格分隔。

POST _analyze
{
  "tokenizer": "letter",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

　　　　分词结果：[ The, QUICK, Brown, Foxes, jumped, over, the, lazy, dog, s, bone ]

　　2.3 Lowercase Tokenizer(小写分词器)

　　　　分词规则与Letter Tokenizer相似，再转为小写的分词。功能上是 Letter Tokenizer与小写的token filter相结合，但它的效益更高。

POST _analyze
{
  "tokenizer": "lowercase",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

　　　　分词结果：[ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

　　2.4 Whitespace Tokenizer (空白分词器)

　　　　Whitespace 分析器包含了Whitespace 分词器，这里不再举例，参考：Elasticsearch 所有内置分析器介绍(5)

　　2.5 uax_url_email Tokenizer

　　　　该分析器与Standard分析器相似，只不过它将url和电子邮件识别为单个term。

POST _analyze
{
  "tokenizer": "uax_url_email",
  "text": "Email me at john.smith@global-international.com"
}

　　　　分词结果：[ Email, me, at, john.smith@global-international.com ]

　　2.6 Classic Tokenizer(经典分词器)

　　　　经典分词器是基于语法的分词器，适应于英语文档。该分析器有以下特点：

　　　　　　1)根据标点符号拆分单词，并删除标点符号。

　　　　　　2)根据字符拆分的单词，如字符：中划线 -

　　　　　　3)它将电子邮件地址和互联网主机名识别为一个term。

POST _analyze
{
  "tokenizer": "classic",
  "text": "john.smith@global-international.com The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

　　　　分词结果：[ john.smith@global-international.com, The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ]

　　　　该分词器接受一个参数，max_token_length最大令牌长度。如果令牌超过此长度，则按max_token_length间隔进行拆分。默认值 255

　　　　下面是配置max_token_length长度为5的示例：

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "classic",
          "max_token_length": 5
        }
      }
    }
  }
}

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

　　　　分词结果：[ The, 2, QUICK, Brown, Foxes, over, the, lazy, dog's, bone ] 丢失了jumped单词，长度为6

三.部分单词的分词器

　　3.1 N-Gram Tokenizer

　　3.2 Edge N-Gram Tokenizer

　　　　二种分词器比较常用，将再下一篇单独篇讲。

四.结构化文本的分词器

　　4.1 Keyword Tokenizer (关键字分词器)

　　　　Keyword 分析器包含了Keyword 分词器，这里不再举例，参考：Elasticsearch 所有内置分析器介绍(5)

　　4.2 Pattern Tokenizer (模式分词器)

　　　　Pattern 分析器包含了Pattern 分词器，这里不再举例，参考：Elasticsearch 所有内置分析器介绍(5)

　　4.3 Simple Pattern Tokenizer (简单模式分词器)

　　　　simple_pattern 简单模式分词器使用Lucene正则表达式，简单模式分词器对比模式分词器功能有限，但通常比模式分词器分词更快。

　　　　自定义一个简单模式分析，将文本拆分为3位数字的词

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "simple_pattern",
          "pattern": "[0123456789]{3}"
        }
      }
    }
  }
}

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "fd-786-335-514-x"
}

　　　　分词结果：[ 786, 335, 514 ]

　　　　将文本中拆分为3个数字为一个词，如果文本是：fd-1786-335-514-x 分词结果：[ 178, 335, 514 ]

　　4.4 Char Group Tokenizer

　　　　char_group 分词器可通过要分割的字符进行配置，这通常比运行正则表达式性能更好。

POST _analyze
{
  "tokenizer": {
    "type": "char_group",
    "tokenize_on_chars": [
      "whitespace",
      "-",
      "\n"
    ]
  },
  "text": "The QUICK brown-fox"
}

　　　　分词结果：[The,QUICK,brown,fox ]

　　4.5 Simple Pattern Split Tokenizer (简单模式拆分分词器)

　　　　simple_pattern_split 简单模式拆分分词器使用Lucene正则表达式，对比模式分词器功能有限，但通常比模式分词器分词更快。

　　　　自定义一个简单模式拆分分词器，将文本以 _ 下划线来拆分

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "simple_pattern_split",
          "pattern": "_"
        }
      }
    }
  }
}

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "fd_786_335_514_x"
}

　　　　分词结果：[ fd,786, 335, 514,x ] 　　

　　4.6 Path Tokenizer (路径分词器)

　　　　path_hierarchy 分词器，将文本以路径分隔符进行分割，该分词器接收以下重要参数：

　　　　1) delimiter 设置分隔符字符。默认值为 /

　　　　2) replacement 设置替换字符，默认为delimiter

　　　　3)skip ：跳过令牌的数量。默认为0

　　　　自定义一个路径分析器

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "path_hierarchy",
          "delimiter": "-",
          "replacement": "/",
          "skip": 2
        }
      }
    }
  }
}

POST my-index-000001/_analyze
{
  "analyzer": "my_analyzer",
  "text": "one-two-three-four-five"
}

　　　　分词结果:[/three, /three/four, /three/four/five] 使用skip跳过了前面二个令牌

参考官方资料: Tokenizer reference

花阴偷移

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch 所有内置分词器介绍(6)

一.概述　　Tokenizer分词器接收字符流(es的text类型)，将其分解为单个term(通常是单个单词), 然后输出标记流。分词器除了分解，还负责记录以下内容：　　　　1)记录每个单词(term)的顺序或位置(用于”phrase短语“和单词邻近性查询)　　　　2)term原始单词的开始和结束字符偏移量(使用 ”highlighting高亮“ 搜索显示)　　　　3)token类型,...
复制链接

扫一扫