Elasticsearch 有没有数组类型?有哪些坑?

1、Elasticsearch 数组常见问题清单

近期 Elasticsearch 数组问题被问到的比较多,为了方便大家对数组建立全局认知,我把数组相关实战问题梳理出来,让更多后来人遇到类似问题少走不必要的弯路。

精简几个核心问题列举如下:

  • Elasticsearch 是否有数组类型?

  • Elasticsearch 数据选型有没有坑?

  • Elasticsearch 如何获取数组中第i号位置的值?

  • Elasticsearch 如何获取数组最后一个元素的值?

2、Elasticsearch 是否有数组类型?

了解 Elasticsearch 版本历史的读者会知道 1.X 版本中没有独立模块强调数组 Array 类型。

Elasticsearch 2.X 版本之后,数组类型才单独被拎出来。

在 Elasticsearch 中,没有专门的数组数据类型。默认情况下,任何字段都可以包含零个或多个值,但是,数组中的所有值必须具有相同的数据类型。什么意思呢?

  • long 类型存储一个值是long类型,存储多个自然就成为 long 数组类型;

  • keyword 类型存储一个值是 keyword 类型,存储多个值就成为 keyword 数组类型。

实战一把:

PUT my-index-1230
{
  "mappings": {
    "properties": {
      "horry": {
        "type": "keyword"
      }
    }
  }
}

# 单值 keyword 类型
POST my-index-1230/_doc
{
  "horry": "pingpang"
}

# keyword 数组类型
POST my-index-1230/_doc
{
  "horry": [
    "pingpang",
    "basketball",
    "football"
  ]
}

GET my-index-1230/_search

如上示例,可以更加清晰的看出,当我们选型使用数组时,和平时 Mapping 设置类型一样,不需要额外的修改 Mapping 任何内容,只需要导入相同数据类型的数据即可。

这时候,读者可能会问,我不小心写入了不同类型的数据咋办?

继续实战一把,探个究竟。

# 导入不合规数据,数据依然可以写入
POST my-index-1230/_doc
{"horry":["11111",22222,33333]}

# 数据依然可以被召回
GET my-index-1230/_search
{
  "query": {
    "term": {
      "horry": {
        "value": "22222"
      }
    }
  }
}

由于 Elasticsearch 做了弱类型匹配校验检查,导致数据依然可以写入,我们肉眼看到的整形类型,实际本质存储为keyword 类型,这也是为什么“22222”能被检索召回的原因。

3、Elasticsearch 数据选型有没有坑?

3.1 动态导入数组类型数据,第一次写入数据的类型决定了数组的类型。

# 默认检测指定为 long 类型
POST my-index-1230-01/_doc
{
  "horry": [
    11111,
    22222,
    33333
  ]
}

如上,写入的是 long 类型的数组。long 咋来的,动态类型匹配 date_detection 得到的!

https://www.elastic.co/guide/en/elasticsearch/reference/current/dynamic-mapping.html

3.2 不能独立的检索数组中的单个字段

如下示例,即便仅检索“basketball”不能独立只召回“basketball”,数组数据会一起返回。

# 数组数据会作为一个整体被召回
GET my-index-1230/_search
{
  "query": {
    "match": {
      "horry":  "basketball"
    }
  }
}

如果非要实现单独召回数据,需要借助:nested 嵌套类型实现。

4、Elasticsearch 如何获取数组中第i号位置的值?

举例,仅检索召回 “basketball”,需要借助 script_field 或者 runtime field 实现。

实现参考如下:

POST my-index-1230/_doc
{
  "horry": [
    "all",
    "pingpang",
    "basketball",
    "football"
  ]
}

GET my-index-1230/_search

注意:存储数组数据顺序是:

序号
0all
1pingpang
2basketball
3football
GET my-index-1203/_search
{
  "query": {
    "match_all": {}
  },
  "script_fields": {
    "test1": {
      "script": {
        "lang": "painless",
        "source": "doc['horry'][2]"
      }
    }
  }
}

如上示例中的2,可以换成:0,1,2,3。

召回结果如下:

序号
0all
1basketball
2football
3pingpang

后台按照字母顺序做了处理,返回结果数据。

也就是说:我们以脚本的方式无法精准获取对应位次上的数据。

这块目前看,没有最优的获取方式。如果大家有,欢迎留言交流。

4、Elasticsearch 如何获取数组最后一个元素的值?

通过 ingest pipeline 预处理方式实现如下:

DELETE my-index-123001
POST my-index-123001/_doc
{
  "horry": [
    "pingpang",
    "basketball",
    "football"
  ]
}

PUT _ingest/pipeline/my_pipeline
{
  "processors": [
    {
      "script": {
        "source": """
             if(ctx.horry!=null)
             {
               List list = ctx.horry; 
              List ListOfLast = list.subList(list.size() - 1, list.size()); 
              String lastval=ListOfLast.toString(); 
              lastval=lastval.substring(1, lastval.length() - 1);
              ctx.lastval=lastval;
             }
          """
      }
    }
  ]
}


POST my-index-123001/_update_by_query?pipeline=my_pipeline
{
  "query": {
    "match_all": {}
  }
}

GET my-index-123001/_search

中间核心脚本不是最优实现方式,欢迎大家留言反馈精简处理方式。

  • 第一步:数组转 list;

  • 第二步:取 list 最后一个元素值,结果仍然为 list;

  • 第三步:list 转 string;

  • 第四步:string 取核心元素,去头、去尾。

  • 第五步:将中间结果赋值给新字段。

返回结果如下:

{
      "_index" : "my-index-123001",
      "_type" : "_doc",
      "_id" : "RxLlC34BuPkjCUZU5-XW",
      "_score" : 1.0,
      "_source" : {
        "lastval" : "football",
        "horry" : [
          "pingpang",
          "basketball",
          "football"
        ]
      }
    }

上面的预处理方式对数组而言,也是仅适用于获取特定值的场景。

5、小结

Elasticsearch 数组选型需要结合业务场景需要。

数据相关的问题还有很多很多,比如:

  1. 数组高亮问题

  2. 数组聚合问题

  3. 数组召回数据问题 

  4. .....

大家在选型或者实践的过程中,如果涉及大量脚本的时候,要多考虑能否通过写入前 ingest 预处理方式。本质是:以空间换时间,最大化提升检索效率。

欢迎大家就数组问题留言讨论。

推荐

1、重磅 | 死磕 Elasticsearch 方法论认知清单(2021年国庆更新版)

2Elasticsearch 7.X 进阶实战私训课(口碑不错)

dabce584e5e134f4e5796fbc6c03c824.png

更短时间更快习得更多干货!

已带领81位球友通过 Elastic 官方认证!

9b5570d77de67a896c31e74716bb6353.gif

比同事抢先一步学习进阶干货!

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
Elasticsearch中,聚合器(Aggregations)是用于对搜索结果进行汇总和分析的重要工具。它们允许你在查询结果中执行复杂的数据处理,例如计算总和、平均值、分组、过滤等。Elasticsearch提供了多种类型的聚合器,以下是其中一些主要的: 1. **计数器(Bucket Count)**:最基本的聚合器,用于计算文档数量。 2. **值汇总(Value Sum, Avg, Min, Max)**:计算字段的数值总和、平均值、最小值或最大值。 3. **分桶(Bucketing Aggregators)**: - **分桶聚合器(Bucket Aggregation)**:如术语频率(Term Frequency)、IP范围(IP Range)和日期范围(Date Range)。 - **分组(Grouping)**:如分组桶(Terms, Histogram, Date Histogram)对数据进行分类并计算每个组的结果。 - **子分桶(Sub-Bucketing)**:如nested、geohash_grid等,用于嵌套文档的字段。 4. **最小值/最大值(Min/Max)**:找到指定字段的最小值或最大值。 5. **百分位数(Percentiles)**:计算数值字段的特定百分位数。 6. **卡方检验(Cardinality)**:估算字段值的数量,包括估算不确定性。 7. **直方图(Histogram)**:创建基于时间或数值的区间分布。 8. **地理聚合(Geo Aggregations)**:如geo_centroid、geo_bounds、geohash_grid等,用于地理位置数据。 9. **聚合管道(Pipeline Aggregations)**:允许你串联多个聚合操作以构建更复杂的分析。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

铭毅天下

和你一起,死磕Elastic!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值