ES内置的6种分词器
standard analyzer
标准分词器,未设置分词器时默认使用此分词器。在空格、符号处切,中文部分切割为一个一个的汉字。
切的意思是不要了。多个连续的空格算一个空格,符号指的是!、?、@、。等
"h!ello wo2rld a b我是a中国人d" => h ello wo2rld a b 我 是 a 中 国 人
simple analyzer
简单分词器。在空格、符号、数字处切,中文部分不会切割为一个一个的汉字。
数字指的是1、2.5这种,不包括大写的数字。
"h!ello wo2rld a b我是a中国人d" => h ello wo rld a b我是a中国人d
stop analyzer
停止分词器。在空格、符号、数字、英文介词|冠词 处切,中文部分不会切割为一个一个的汉字。
英文介词|冠词指的是the、a、an、this、of、at等,注意是英文的,中文的介词|冠词不切。
"h!ello wo2rld a b我是a中国人d" => h ello wo rld b我是a中国人d
在英文中,冠词|介词前后都有一个空格,是单独的一个词,如果前后没有空格,那就不算介词|冠词。
whitespace analyzer
空白符分词器。只在空格处切。
"h!ello wo2rld a b我是a中国人d" => h!ello wo2rd a b我是a中国