Tokenizer 译作:“分词”,可以说是ElasticSearch Analysis机制中最重要的部分。
standard tokenizer
标准类型的tokenizer对欧洲语言非常友好, 支持Unicode。
如下是设置:
设置 | 说明 |
---|---|
| 最大的token集合,即经过tokenizer过后得到的结果集的最大值。如果token的长度超过了设置的长度,将会继续分,默认255
|
Edge NGram tokenizer
一个名字为 edgeNGram
.的分词。
这个分词和 nGram 非常的类似。但是只是相当于
n-grams 的分词的方式,只保留了“从头至尾”的分词。
以下是 edgeNGram
分词的设置:
设置 | 说明 | Default value |
---|---|---|
| 分词后词语的最小长度 |
|
| 分词后词语的最大长度 |
|
| 设置分词的形式,例如,是数字还是文字。elasticsearch将根据分词的形式对文本进行分词。 |
|
token_chars 所接受的以下形式:
letter | 单词,字母 |
|
|
| 例如 |
| 例如 |
| 例如 |
例子:
Keyword Tokenizer
keyword
类型的tokenizer 是将一整块的输入数据作为一个单独的分词。
以下是 keyword
tokenizer 的类型:
设置 | 说明 |
---|---|
| term buffer 的大小. 默认是 to |
Letter Tokenizer
一个 letter 类型的tokenizer分词是在非字母的环境中将数据分开。也就是说,这个分词的结果可以是一整块的的连续的数据内容
.注意, 这个分词对欧洲的语言非常的友好,但是对亚洲语言十分不友好。
Lowercase Tokenizer
一个 lowercase 类型的分词器可以看做Letter Tokenizer分词和Lower case Token Filter的结合体。即先用Letter Tokenizer分词,然后再把分词结果全部换成小写格式。
NGram Tokenizer
一个nGram
.类型的分词器。
以下是 nGram
tokenizer 的设置:
设置 | 说明 | 默认值 |
---|---|---|
| 分词后词语的最小长度 |
|
| 分词后数据的最大长度 |
|
| 设置分词的形式,例如数字还是文字。elasticsearch将根据分词的形式对文本进行分词。 |
|
token_chars
所接受以下的形式:
| 例如 |
|
|
| 例如 |
| 例如 |
| 例如 |
例子:
Whitespace Tokenizer
whitespace
类型的分词将文本通过空格进行分词。
Pattern Tokenizer
一个 pattern类型的分词可以利用正则表达式进行分词。
设置 | 说明 |
---|---|
| 正则表达式的pattern,默认是 |
| 正则表达式的 flags. |
| 哪个group去抽取数据。 默认是 to |
IMPORTANT: 正则表达式应该和 token separators相匹配, 而不是 tokens 它们本身.
使用elasticsearch 不同语言的API 接口时,不必care字符转译问题。
group
设置为-1
(默认情况下) 等价于"split"。wwwUsing group >= 0 selects the matching group as the token. For example, if you have:
pattern = '([^']+)'
group = 0
input = aaa 'bbb' 'ccc'
the output will be two tokens: 'bbb'
and 'ccc'
(including the '
marks). With the same input but using group=1, the output would be: bbb
and ccc
(no '
marks).
UAX Email URL
uax_url_email 类型的分词器和
standard
类型的一十分类似,但是是分的 emails 和url
下面是
uax_url_email
tokenizer 的设置:
设置 | 说明 |
---|---|
| 经过此分词器后所得的数据的最大长度。 默认是 |
Path Hierarchy Tokenizeredit
path_hierarchy 路径分词器。例如有如下数据
:
/something/something/else
经过该分词器后会得到如下数据 tokens:
/something
/something/something
/something/something/else
设置 | 说明 |
---|---|
| 分隔符,默认 |
| 一个选择替代符。 默认是 |
| 缓存buffer的大小, 默认是 |
| 是否将分词后的tokens反转, 默认是 |
| Controls initial tokens to skip, defaults to |
Classic Tokenizer
可以说是为英语而生的分词器. 这个分词器对于英文的首字符缩写、 公司名字、 email 、 大部分网站域名.都能很好的解决。 但是, 对于除了英语之外的其他语言,都不是很好使。
它的设置:
设置 | 说明 |
---|---|
| 分词后token的最大长度。 默认是 |
Thai Tokenizer
泰语的分词。
更多精彩内容,请关注我的个人公众账号 互联网技术窝