ES 的聚合机制和模糊匹配

一、 Elasticsearch对于大数据量(上亿量级)的聚合如何实现?

Elasticsearch 提供的首个近似聚合是cardinality 度量。它提供一个字段的基数,即该字段的distinct或者unique值的数目。它是基于HLL算法的。HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是:可配置的精度,用来控制内存的使用(更精确 = 更多内存);小的数据集精度是非常高的;我们可以通过配置参数,来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关。

hyperloglog是用来近似统计不重复数据次数(cardinality count)的一种算法。主要应用于在一定误差允许范围内,进行去重计数。比如,近似统计网站日活用户数(非计算精确指标,只是为了监控流量趋势,提供背压标准)。cardinality 度量是一个近似算法。 它是基于 HyperLogLog++ (HLL)算法的。 HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。

1.1 HLL优点

去重计数可以通过其他方案来实现,比如hashmap,b树,bitmap,但上述方法都有一个缺点,内存消耗会随数据规模线性增长,以bitmap为例,如果要统计1亿个数据的基数值,大约需要内存: 100000000/8/1024/1024 ≈ 12M
而redis中实现的HyperLogLog,只需要12K内存,在标准误差0.81%的前提下,能够统计2^64 个数据。

1.2 ES应用:

去重是一个很常见的操作,可以回答很多基本的业务问题:

  • 网站独立访客是多少?
  • 卖了多少种汽车?
  • 每月有多少独立用户购买了商品?

我们可以用 cardinality 度量确定经销商销售汽车颜色的数量:

GET /cars/transactions/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_colors" : {
            "cardinality" : {
              "field" : "color"
            }
        }
    }
}

返回的结果表明已经售卖了三种不同颜色的汽车:

...
"aggregations": {
  "distinct_colors": {
     "value": 3
  }
}

二、 模糊匹配

Elasticsearch 指定了 fuzziness 参数支持对最大编辑距离的配置,默认为 2 。在计算机科学中,编辑距离用于度量任意两个字符串间不相似的程度,即二者之间的编辑距离越大表示两个字符串之间的差异就越大。

编辑距离被称作Levenshtein distance,给定两个字符串x和y,只允许使用三种操作(插入一个字符、删除一个字符、修改一个字符)将x变换为y,求最少需要的操作次数。

fuzzy在es中可以理解为模糊查询,搜索本身很多时候是不精确的,很多时候我们需要在用户的查询词中有部分错误的情况下也能召回正确的结果

GET /my_index/_search
{
  "query": {
    "fuzzy": {
      "text": "surprize"
    }
  }
}

fuzzy 查询的工作原理是给定原始词项及构造一个 编辑自动机— 像表示所有原始字符串指定编辑距离的字符串的一个大图表。然后模糊查询使用这个自动机依次高效遍历词典中的所有词项以确定是否匹配。 一旦收集了词典中存在的所有匹配项,就可以计算匹配文档列表。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Elasticsearch 聚合和分组是为了对数据进行聚合和分类的操作。通过聚合,可以从多个文档或字段中获取统计信息,例如计算平均值、总和或占比等。分组则是将文档按照某个字段进行分类,例如将客户按照地域分组。这样可以方便地对数据进行分析和可视化。 ### 回答2: Elasticsearch是一个广为使用的开源搜索引擎,它具有强大的聚合能力,可以对数据进行分组、过滤、排序等操作。在Elasticsearch中,聚合是一个非常重要的功能,它可以从一组文档中抽取统计信息,并将其返回给用户。 聚合和分组的概念是密不可分的,聚合操作通常需要通过分组操作来实现。通过聚合和分组操作,我们可以将数据按照某个字段进行分类,比如说对商品按照价格进行分组,或者将用户按照地理位置进行分组等。为了更好地理解聚合和分组的概念,下面将分别解释这两个概念,在此基础上再介绍如何在Elasticsearch中进行聚合和分组操作。 什么是聚合聚合是指对一组数据进行统计和分析的过程,通过聚合操作,我们可以从数据中获得一些有价值的信息,比如说总数、平均值、最大值、最小值、分布情况、占比等等。 在Elasticsearch中,聚合是一种高级查询方式,可以在搜索结果中对数据进行进一步深入地挖掘,比如:常见的数据统计:例如通过terms统计某一列中每个值的数量,通过avg统计某一列的平均值,通过max统计某一列的最大值等。 什么是分组? 分组指的是按照某个字段对一组数据进行分组,将数据分成多个子集,在每个子集中进行聚合操作,最终将各个子集的结果合并得出整体结果。在Elasticsearch中,分组是通过聚合操作来实现的,可以通过terms聚合来对数据进行分组,也可以通过date_histogram聚合对时间数据进行分组。 如何在Elasticsearch中进行聚合和分组操作? Elasticsearch提供了丰富的聚合功能,可以通过简单的组合实现复杂的聚合操作。比如说,可以使用terms聚合来对数据进行分组,然后使用sum聚合来计算每个分组的总和。下面给出一个示例代码: ``` GET /my_index/_search { "size": 0, "aggs": { "group_by_price": { "terms": { "field": "price" }, "aggs": { "total_sales": { "sum": { "field": "sales" } } } } } } ``` 在上面的代码中,我们使用terms聚合来对数据进行分组,将数据按照price字段进行分组,然后使用sum聚合来计算每个分组的销售总数。这个例子只是聚合功能的冰山一角,在实际应用中,我们还可以使用Elasticsearch提供的其他聚合操作来实现更复杂的统计和分析需求。 通过上述方法和示例,我们可以看出,Elasticsearch的聚合和分组功能非常强大,可以快速地对大规模的数据进行统计和分析。对于需要进行数据分析和报告的企业和用户来说,Elasticsearch聚合和分组功能是绝对值得掌握和使用的。 ### 回答3: elasticsearch 是一款基于 Lucene 的开源搜索引擎。除了基本的文本搜索外,它还提供了强大的聚合和分组功能。 聚合是一种将多个文档组合在一起分析的方法,其结果可以是平均值、最大值、最小值等。可以使用 `aggs` 参数将查询结果进行聚合,常见的聚合类型有: - Bucket 聚合:将多个文档按照某种标准分组,使用 `terms` 或 `histogram` 等聚合函数实现。 - Metrics 聚合:计算符合条件的文档中某个字段的统计值,比如 `average`、`sum`、`max`、`min` 等聚合函数。 例如,以下查询使用 `terms` 聚合函数将所有文档按照 `age` 字段的值分为不同的组,并计算每组的文档数和平均年龄: ``` GET /_search { "size": 0, "aggs": { "age_buckets": { "terms": { "field": "age" }, "aggs": { "avg_age": { "avg": { "field": "age" } } } } } } ``` 分组是基于聚合的一种操作,是指将聚合后的结果按照某种标准进行分组。比如,可以使用 `nested` 和 `reverse_nested` 参数实现嵌套分组,使用 `min_doc_count` 设置分组最小文档数量。例如,以下查询将所有文档按照 `age` 和 `gender` 字段进行分组,并分别计算每组的文档数和平均年龄,然后再按照 `age` 进行反向分组: ``` GET /_search { "size": 0, "aggs": { "age": { "terms": { "field": "age" }, "aggs": { "gender": { "terms": { "field": "gender" }, "aggs": { "avg_age": { "avg": { "field": "age" } } } } } }, "reverse_age": { "reverse_nested": {}, "aggs": { "avg_age": { "avg": { "field": "age" } } } } } } ``` 总之,elasticsearch 的聚合和分组功能十分强大,可以根据实际需求进行灵活配置,以实现更精确的查询结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值