ElasticSearch 内置分析器的一些问题 第一篇

1. 内置分析器(不是分词器)standardes自带四种内置分析器,分别为标准分析器、简单分析器、空格分析器、语言分析器。1.1 standard标准分析器1.1.1 分析器分析的过程:首先,将一块文本分成适合于倒排索引的独立的 词条之后,将这些词条统一化为标准格式以提高它们的“可搜索性”,或者 recall包含三个过程: - 字符过滤器(如过滤空格...
摘要由CSDN通过智能技术生成

1. 内置分析器(不是分词器)standard

es自带四种内置分析器,分别为标准分析器、简单分析器、空格分析器、语言分析器。

1.1 standard标准分析器

1.1.1 分析器

分析的过程:

  • 首先,将一块文本分成适合于倒排索引的独立的 词条
  • 之后,将这些词条统一化为标准格式以提高它们的“可搜索性”,或者 recall

包含三个过程:
- 字符过滤器(如过滤空格)

  • 分词器(简单的进行分词)

  • Token 过滤器(通过设置的token过滤器,对词条进行处理,如大小写转换)

1.1.2 场景
  • 假设索引里面有两个数据:
内科
内一科
内二科
普通内科
肿瘤内科
  • 我们的预期目标:输入“内科”——得到——>“内科”(且内科应得分最高)以及包含“内科”的结果
  • 实际上的到的结果:
"hits": [
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "TicbAWMB1wKYJm5vNAws",
        "_score": 1.5603871,
        "_source": {
            "text": "肿瘤内科"
        }
    },
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "SycaAWMB1wKYJm5v0gz9",
        "_score": 0.5753642,
        "_source": {
            "text": "内一科"
        }
    },
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "TScbAWMB1wKYJm5vEwyj",
        "_score": 0.5753642,
        "_source": {
            "text": "普通内科"
        }
    },
    {
        "_index": "studydemo",
        "_type": "doc",
        "_id": "Sic
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值