1. 内置分析器(不是分词器)standard
es自带四种内置分析器,分别为标准分析器、简单分析器、空格分析器、语言分析器。
1.1 standard标准分析器
1.1.1 分析器
分析的过程:
- 首先,将一块文本分成适合于倒排索引的独立的 词条
- 之后,将这些词条统一化为标准格式以提高它们的“可搜索性”,或者 recall
包含三个过程:
- 字符过滤器(如过滤空格)
分词器(简单的进行分词)
Token 过滤器(通过设置的token过滤器,对词条进行处理,如大小写转换)
1.1.2 场景
- 假设索引里面有两个数据:
内科
内一科
内二科
普通内科
肿瘤内科
- 我们的预期目标:输入“内科”——得到——>“内科”(且内科应得分最高)以及包含“内科”的结果
- 实际上的到的结果:
"hits": [
{
"_index": "studydemo",
"_type": "doc",
"_id": "TicbAWMB1wKYJm5vNAws",
"_score": 1.5603871,
"_source": {
"text": "肿瘤内科"
}
},
{
"_index": "studydemo",
"_type": "doc",
"_id": "SycaAWMB1wKYJm5v0gz9",
"_score": 0.5753642,
"_source": {
"text": "内一科"
}
},
{
"_index": "studydemo",
"_type": "doc",
"_id": "TScbAWMB1wKYJm5vEwyj",
"_score": 0.5753642,
"_source": {
"text": "普通内科"
}
},
{
"_index": "studydemo",
"_type": "doc",
"_id": "Sic