ElasticSearch 内置分析器的一些问题第一篇

最新推荐文章于 2024-04-28 13:17:57 发布

Time_Travel

最新推荐文章于 2024-04-28 13:17:57 发布

阅读量530

点赞数

分类专栏：数据库文章标签： ElasticSearch 中文分析器分词

本文链接：https://blog.csdn.net/Time_Travel/article/details/80214472

版权

1. 内置分析器（不是分词器）standardes自带四种内置分析器，分别为标准分析器、简单分析器、空格分析器、语言分析器。1.1 standard标准分析器1.1.1 分析器分析的过程：首先，将一块文本分成适合于倒排索引的独立的词条之后，将这些词条统一化为标准格式以提高它们的“可搜索性”，或者 recall包含三个过程： - 字符过滤器（如过滤空格...

摘要由CSDN通过智能技术生成

1. 内置分析器（不是分词器）standard

es自带四种内置分析器，分别为标准分析器、简单分析器、空格分析器、语言分析器。

1.1 standard标准分析器

1.1.1 分析器

分析的过程：

首先，将一块文本分成适合于倒排索引的独立的词条
之后，将这些词条统一化为标准格式以提高它们的“可搜索性”，或者 recall

包含三个过程：
- 字符过滤器（如过滤空格）

分词器（简单的进行分词）
Token 过滤器（通过设置的token过滤器，对词条进行处理，如大小写转换）

1.1.2 场景

假设索引里面有两个数据：

内科
内一科
内二科
普通内科
肿瘤内科

我们的预期目标：输入“内科”——得到——>“内科”（且内科应得分最高）以及包含“内科”的结果
实际上的到的结果：

"hits": [
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "TicbAWMB1wKYJm5vNAws",
        "_score": 1.5603871,
        "_source": {
            "text": "肿瘤内科"
        }
    },
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "SycaAWMB1wKYJm5v0gz9",
        "_score": 0.5753642,
        "_source": {
            "text": "内一科"
        }
    },
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "TScbAWMB1wKYJm5vEwyj",
        "_score": 0.5753642,
        "_source": {
            "text": "普通内科"
        }
    },
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "Sic

最低0.47元/天解锁文章

Time_Travel

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch 内置分析器的一些问题第一篇

1. 内置分析器（不是分词器）standardes自带四种内置分析器，分别为标准分析器、简单分析器、空格分析器、语言分析器。1.1 standard标准分析器1.1.1 分析器分析的过程：首先，将一块文本分成适合于倒排索引的独立的词条之后，将这些词条统一化为标准格式以提高它们的“可搜索性”，或者 recall包含三个过程： - 字符过滤器（如过滤空格...
复制链接

扫一扫