ElasticSearch 解析机制常见用法库之 Tokenizer常用用法

最新推荐文章于 2024-06-23 06:58:19 发布

菜刚

最新推荐文章于 2024-06-23 06:58:19 发布

阅读量1.8w

点赞数 6

分类专栏：工作中遇到的技术琐事文章标签： ES 搜索后端后端开发

工作中遇到的技术琐事专栏收录该内容

32 篇文章 0 订阅

订阅专栏

Tokenizer 译作：“分词”，可以说是ElasticSearch Analysis机制中最重要的部分。

standard tokenizer

标准类型的tokenizer对欧洲语言非常友好，支持Unicode。

如下是设置:

设置说明

设置	说明
`max_token_length`	最大的token集合,即经过tokenizer过后得到的结果集的最大值。如果token的长度超过了设置的长度，将会继续分，默认255

max_token_length

最大的token集合,即经过tokenizer过后得到的结果集的最大值。如果token的长度超过了设置的长度，将会继续分，默认255

Edge NGram tokenizer

一个名字为 edgeNGram.的分词。

这个分词和 nGram 非常的类似。但是只是相当于 n-grams 的分词的方式，只保留了“从头至尾”的分词。

以下是 edgeNGram 分词的设置：

设置	说明	Default value
`min_gram`	分词后词语的最小长度	`1`.
`max_gram`	分词后词语的最大长度	`2`.
`token_chars`	设置分词的形式，例如，是数字还是文字。elasticsearch将根据分词的形式对文本进行分词。	`[]` (Keep all characters)

token_chars 所接受的以下形式：

letter	单词，字母 `a`, `b`, `ï` or `京`
`digit`	`数字3` or `7`
`whitespace`	例如 `" "` or `"\n"`
`punctuation`	例如 `!` or `"`
`symbol`	例如 `$` or `√`

例子：

Keyword Tokenizer

keyword 类型的tokenizer 是将一整块的输入数据作为一个单独的分词。

以下是 keyword tokenizer 的类型:

设置	说明
`buffer_size`	term buffer 的大小. 默认是 to `256`.

Letter Tokenizer

一个 letter 类型的tokenizer分词是在非字母的环境中将数据分开。也就是说，这个分词的结果可以是一整块的的连续的数据内容 .注意, 这个分词对欧洲的语言非常的友好，但是对亚洲语言十分不友好。

Lowercase Tokenizer

一个 lowercase 类型的分词器可以看做Letter Tokenizer分词和Lower case Token Filter的结合体。即先用Letter Tokenizer分词，然后再把分词结果全部换成小写格式。

NGram Tokenizer

一个nGram.类型的分词器。

以下是 nGram tokenizer 的设置:

设置	说明	默认值
`min_gram`	分词后词语的最小长度	`1`.
`max_gram`	分词后数据的最大长度	`2`.
`token_chars`	设置分词的形式，例如数字还是文字。elasticsearch将根据分词的形式对文本进行分词。	`[]` (Keep all characters)

token_chars 所接受以下的形式：

`letter`	例如 `a`, `b`, `ï` or `京`
`digit`	`例如3` or `7`
`whitespace`	例如 `" "` or `"\n"`
`punctuation`	例如 `!` or `"`
`symbol`	例如 `$` or `√`

例子：

Whitespace Tokenizer

whitespace 类型的分词将文本通过空格进行分词。

Pattern Tokenizer

一个 pattern类型的分词可以利用正则表达式进行分词。

设置	说明
`pattern`	正则表达式的pattern，默认是 `\W+`.
`flags`	正则表达式的 flags.
`group`	哪个group去抽取数据。默认是 to `-1` (split).

IMPORTANT: 正则表达式应该和 token separators相匹配, 而不是 tokens 它们本身.

使用elasticsearch 不同语言的API 接口时，不必care字符转译问题。

group 设置为-1 (默认情况下) 等价于"split"。wwwUsing group >= 0 selects the matching group as the token. For example, if you have:

pattern = '([^']+)'
group   = 0
input   = aaa 'bbb' 'ccc'

the output will be two tokens: 'bbb' and 'ccc' (including the ' marks). With the same input but using group=1, the output would be: bbb and ccc (no ' marks).

UAX Email URL

uax_url_email 类型的分词器和standard 类型的一十分类似，但是是分的 emails 和url

下面是uax_url_email tokenizer 的设置：

设置	说明
`max_token_length`	经过此分词器后所得的数据的最大长度。默认是 `255`.

Path Hierarchy Tokenizeredit

path_hierarchy 路径分词器。例如有如下数据:

/something/something/else

经过该分词器后会得到如下数据 tokens:

/something
/something/something
/something/something/else

设置	说明
`delimiter`	分隔符，默认 `/`.
`replacement`	一个选择替代符。默认是`delimiter`.
`buffer_size`	缓存buffer的大小, 默认是 `1024`.
`reverse`	是否将分词后的tokens反转, 默认是 `false`.
`skip`	Controls initial tokens to skip, defaults to `0`.