一、什么是分词器
二、分词器的组成
三、Elasticsearch默认分词器
四、_anlyzer API进行分词测试
一、什么是分词器
把全文本转为为一些列单词的过程,也叫分词
分词是通过分词器来实现的
注意: 除了在数据写入时进行词条转化,匹配Query时,也需要使用相同的分词器对语句进行分析
二、分词器的组成
1. Character Filter:针对原始文本进行处理,例如: 去除html标签
2. Tokenizer: 按照规则切分为单词
3. Token FIlter: 将切分的单词进行加工。例如:大小转小写,删除stopwords,增加同义词
案例:
Master Elasticsearch & Elasticsearch in China
分词后:
master
elasticsearch
action
三、Elasticsearch默认分词器
Elasticsearch内置的分词器:
Standard Analyzer: 默认分词器,按词进行切分,小写处理
Simple Analyzer: 按照非字母进行切分,符号被过滤,小写处理
Stop Analyzer: 小写处理,停用词过滤
Whitespace Analyzer: 按照空格进行切分,不转小写
Keyword Analyzer: 不分词,直接将输入当做输出还有自定义的分词器等
四、_anlyzer API进行分词测试
_analyzer API
分词测试:
GET _analyze
{
"analyzer": "standard",
"text": "Master Elasticsearch, elasticsearch in China"
}