ELK合集(六):Elasticsearch关键术语之Document文档持续更新

最新推荐文章于 2022-12-11 19:25:08 发布

Cheese海盐芝士

最新推荐文章于 2022-12-11 19:25:08 发布

阅读量215

点赞数

分类专栏： ELK 文章标签： elasticsearch 大数据 es

本文链接：https://blog.csdn.net/weixin_40777515/article/details/105009448

版权

ELK 专栏收录该内容

22 篇文章

订阅专栏

Elasticsearch关键术语系列博文目的只用来了解概念 ; 其中涉及到的配置和使用是为了方便日后使用时查询的

Document文档

概念

一条数据是可搜索的最小单位

数据形态

在这里插入图片描述
JSON格式支持数组支持嵌套

JSON对象由Field字段组成

每个字段都有字段类型 (可先指定或 ES自动推算)

拥有的元数据

在这里插入图片描述

_id
- 文档唯一ID(可自己指定或ES自动生成)
_index
- 文档的index索引名
_type
- 文档的type类型名 (ES7 都是_doc)
_source
- 文档的原始json数据
_version
- 文档的版本信息
_score
- 文档的相关性算分

下边展开介绍 _score相关性算分

_score 相关性算分

概念

ES根据一个算法计算的查询语句和一个文档的匹配度

作用

用于搜索结果的排序分高的先展示

算法

ES默认算法

ES5之前默认TF-IDF算法
- 相关概念
  - DF 文档频率 : 检索词在所有文档中出现的频率 Document Frequency
  - IDF 逆文档频率 : Inverse Document Frequuency = log2(全部文档数➗检索词出现过的文档总数)
- Lucene的TF-IDF 算法公式
- 效果举例
  - 英文为主的文章中出现几个德文德文算分高因为稀有
ES5开始默认BM25算法
- 优点
  - 对TF-IDF做了优化 (当TF值增加到定值时 TF-IDF会持续猛增 BM25会超缓慢增加趋于一个数值)
- Lucene的BM25算法公式
  - 参数
    - k : 默认值1.2 数值越小饱和度越高
    - b : 默认值0.75 取值范围0-1 0代表禁止Normalization标准化

similarity 自定义算法

概念
- 创建Index时setting设置自定义算法 mapping将自定义算法设置到指定字段上

语法示例

PUT my_index
{
  "settings":{
    "similarity":{
      "custom_similarity":{
        "type":"BM25",
        "b":0,
        "k1":2
      }
    }
  },
  "mappings":{
    "doc":{
      "properties":{
        "custom_text":{
          "type":"text",
          "similarity":"custom_similarity"
        },
        "default_text":{
          "type":"text"
        }
      }
    }
  }
}