【Elasticsearch】Elasticsearch 字段膨胀不要怕，Flattened 类型解千愁

九师兄

于 2024-06-18 00:30:00 发布

阅读量116

点赞数

分类专栏：转载文章标签： elasticsearch java 大数据

原文链接：https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247487272&idx=1&sn=9545baa726b91562fa6b7b89591ae4f5&chksm=eaa82700dddfae1698053a560d62a4aaaf3a108e8f7c9fbc01e6dabee76e021a77488648b760&scene=21#wechat_redirect

版权

转载专栏收录该内容

124 篇文章 2 订阅

订阅专栏

在这里插入图片描述

1.概述

转载：Elasticsearch 字段膨胀不要怕，Flattened 类型解千愁

2.线上真实案例

球友问题：我记得您写过一篇关于建模字段膨胀的问题，对于比如request header response这种动态的对象，是怎么处理来着？

进一步反馈：决定升级es高版本了，Flattened 解千愁！主要我们这需求要把接口所有信息都保留，只能这样了。

3.Elasticsarch 字段膨胀

Elasticsearch Mapping 如果不做特殊设置，默认为 dynamic。dynamic 的本质就是：不加约束的动态添加字段。这样对某些日志场景，可能会产生大量的未知字段。字段如果持续激增，就会达到 Elasticsearch Mapping 层面的默认上限，对应设置和默认大小为：index.mapping.total_fields.limit：1000。

我们把这种非预期字段激增的现象或结果称为：字段膨胀。

拿自己线上环境示例，说一下 dynamic 的副作用。在一个实际业务环境，混淆了检索和写入的语法，会导致将检索语句动态认定为新增 Mapping 字段。

当然，如果是非常复杂的大 bool 检索语句，会导致 Mapping 变得非常复杂甚至会出现字段膨胀的情况。

在这里插入图片描述
当然，可行的解决方案就是：dynamic 设置为 false，甚至更为严谨的推荐方式：将 dynamic 设置为 strict。

3.1 解决字段膨胀方案一：dynamic 设置为 false

dynamic 设置为 false 后，新来的非 mapping 预设字段数据可以写入，但是：不能被检索，仅支持 Get 获取文档的方式通过 _source 查看详情内容。

举例如下：

在这里插入图片描述

3.2 解决字段膨胀方案二：dynamic 设置为 strict

dynamic 一旦设置为：strict，会“阻止一切来犯之敌”，一切索引创建阶段指定的 Mapping 字段之外的字段名称都将会报错。

设置为 strict 后，再动态插入数据，会报错如下：

{
  "error" : {
    "root_cause" : [
      {
        "type" : "strict_dynamic_mapping_exception",
        "reason" : "mapping set to strict, dynamic introduction of [cont] within [_doc] is not allowed"
      }
    ],
    "type" : "strict_dynamic_mapping_exception",
    "reason" : "mapping set to strict, dynamic introduction of [cont] within [_doc] is not allowed"
  },
  "status" : 400
}

4、Flattened 类型产生的背景

如前分析，将 dynamic 设置为 false 或者 strict 不是普适的解决方案，如日志场景需求如下：

一方面：期望能动态添加字段。strict 过于严谨会导致新字段数据拒绝写入，dynamic 过于松散会字段膨胀。

另一方面：不期望索引字段膨胀。

这就导致同时满足上述两个方面的 Flattend 字段的诞生。

Flattened 中文释义：“压扁、弄平”，实际就是字段扁平化的意思。

当面临处理包含大量不可预测字段的文档时，使用 Flattend 类型可以通过将整个 JSON 对象及其嵌套 Nested 字段索引为单个关键字 keyword 类型字段来帮助减少字段总数。

Flattened 类型的最早发布在：7.3 版本。

5、Flattened 类型解决的根本问题

特定日志场景、电商场景，Elasticsearch Mapping 字段数有时是无法预知的。如果随着新写入数据激增，字段也激增，可能带来的后果是什么呢？

Elasticsearch 必须为每个新字段更新集群状态，并且必须将此集群状态传递给所有节点。由于跨节点的集群状态传输是单线程操作，因此需要更新的字段映射越多，完成更新所需的时间就越长。这种延迟通常大大降低集群性能，有时会导致整个集群宕机。这被称为“ Mapping 爆炸”（mapping explosion）。

这也是 Elasticsearch 从 5.x 及更高版本将索引中的字段数限制为 1000 的原因之一。如果实战业务场景字段数超过 1000，我们必须手动更改默认索引字段限制或者重新考虑架构重构。

修改默认值的方式如下：

PUT record_infos
{
  "settings": {
    "index.mapping.total_fields.limit": 2000
  }
}

Flattened 扁平化字段就是解决：“Mapping 爆炸”问题的。

6.Flattened 类型实战解读

6.1 Flattened 类型真容

千呼万唤始出来，Flattend 真容如下：

在这里插入图片描述

这和 Integer、long、nested、join 等都属于字段类型的范畴。

Flattened 本质是：将原来一个复杂的 Object 或者 Nested 嵌套多字段类型统一映射为偏平的单字段类型。

这里要强调的，不管原来内嵌多少个字段，内嵌多少层，有了 Flattend，一下都打平！！

6.2 基于 Flattened 类型插入数据

基于上面的 Mapping，写入一条数据如下：

PUT demo-flattened/_doc/1
{
  "message": "[5592:1:0309/123054.737712:ERROR:child_process_sandbox_support_impl_linux.cc(79)] FontService unique font name matching request did not receive a response.",
  "fileset": {
    "name": "syslog"
  },
  "process": {
    "name": "org.gnome.Shell.desktop",
    "pid": 3383
  },
  "@timestamp": "2020-03-09T18:00:54.000+05:30",
  "host": {
    "hostname": "bionic",
    "name": "bionic"
  }
}

这时候再查看 Mapping，如下：
在这里插入图片描述
由于 host 字段设置为：Flattened，其下的：hostname、name 字段都不再映射为特定嵌套子字段。

6.3 更新 Flattened 字段，添加数据

POST demo-flattened/_update/1
{
  "doc": {
    "host": {
      "osVersion": "Bionic Beaver",
      "osArchitecture": "x86_64"
    }
  }
}

再次查看 Mapping，依然“岿然不动”。继续 Flattened 拉平，没有字段扩增，也就不会再有 “Mapping 爆炸”出现。

6.4 Flattened 类型检索

以下两种检索都会召回数据：

GET demo-flattened/_search
{
  "query": {
    "term": {
      "host": "Bionic Beaver"
    }
  }
}
GET demo-flattened/_search
{
  "query": {
    "term": {
      "host.osVersion": "Bionic Beaver"
    }
  }
}

而，如下的检索，则返回结果为空。

GET demo-flattened/_search
{
  "query": {
    "match": {
      "host.osVersion": "bionic beaver"
    }
  }
}

GET demo-flattened/_search
{
  "query": {
    "match": {
      "host.osVersion": "Beaver"
    }
  }
}

为什么呢？

由于使用 Flattened 扁平化类型，Elasticsearch 未对该字段进行分析，因此它只会返回匹配字母大小写且完全一致的结果。

如上检索结果和 keyword 类型检索结果一致。

这也初步暴露出：Flattened 类型的部分缺陷。

6.5 Flattend 类型的不足

每当面临 Flattened 扁平化对象的决定时，在选型 Elasticsearch 扁平化数据类型时，我们需要考虑以下几个关键限制：
Flattened 类型支持的查询类型目前仅限于以下几种：

term
terms
terms_set
prefix
range
match and multi_match
query_string and simple_query_string
exists

Flattened 不支持的查询类型如下：

无法执行涉及数字计算的查询，例如：range query。
无法支持高亮查询。
尽管支持诸如 term 聚合之类的聚合，但不支持处理诸如“histograms”或“date_histograms”之类的数值数据的聚合。

7、小结

Flattened 类型的出现，解决了字段膨胀引起的 Mapping 爆炸问题，如果您的生产环境高于7.3版本，有文章开头类似问题，可以小心求证、大胆尝试这种新类型。

您生产环境使用 Flattened 类型了吗？您有没有遇到过字段膨胀或“Mapping 爆炸”问题，是如何解决的？

欢迎留言说一下您的实战思考！

九师兄

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录