Elasticsearch对于大数据量(上亿量级)的聚合如何实现?

分析&回答


Elasticsearch 提供的首个近似聚合是cardinality 度量。它提供一个字段的基数,即该字段的distinct或者unique值的数目。它是基于HLL算法的。HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是:可配置的精度,用来控制内存的使用(更精确 = 更多内存);小的数据集精度是非常高的;我们可以通过配置参数,来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关。

反思&扩展


HyperLogLog

下面简称为HLL,它是 LogLog 算法的升级版,作用是能够提供不精确的去重计数。存在以下的特点:

代码实现较难。

  • 能够使用极少的内存来统计巨量的数据,在 Redis 中实现的 HyperLogLog,只需要12K内存就能统计2^64个数据。
  • 计数存在一定的误差,误差率整体较低。标准误差为 0.81% 。
  • 误差可以被设置辅助计算因子进行降低。

特点–关键词

  1. 比特串
  2. 分桶
  3. 偏差修正

方法

  • pfadd key value,将 key 对应的一个 value 存入
  • pfcount key,统计 key 的 value 有多少个

应用场景

  • 基数不大,数据量不大就用不上,会有点大材小用浪费空间
  • 有局限性,就是只能统计基数数量,而没办法去知道具体的内容是什么
  • 和bitmap相比,属于两种特定统计情况,简单来说,HyperLogLog 去重比 bitmap 方便很多
  • 一般可以bitmap和hyperloglog配合使用,bitmap标识哪些用户活跃,hyperloglog计数

一般使用:

  • 统计注册 IP 数
  • 统计每日访问 IP 数
  • 统计页面实时 UV 数
  • 统计在线用户数
  • 统计用户每天搜索不同词条的个数

喵呜面试助手: 一站式解决面试问题,你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Elasticsearch是一个开源的实时分布式搜索和分析引擎,可以用于存储、搜索和分析各种类型的数据。在Elasticsearch中,聚合(Aggregation)是一种用于对数据进行分析和汇总的功能,可以根据一定的条件和计算逻辑对数据进行分组、过滤、统计等操作。 要实现替换功能,可以通过聚合数据来实现。首先,需要确定需要替换的字段和替换的值。然后,可以使用聚合操作来找到符合条件的文档并进行替换。 首先,需要使用聚合操作来聚合数据并获取符合条件的文档列表。可以使用诸如terms、range、filter等聚合操作来定义条件。例如,使用terms聚合操作来根据某个字段的值进行分组,然后使用filter聚合操作来过滤符合条件的文档。 接下来,可以使用bucket_selector聚合操作来对符合条件的文档进行替换。bucket_selector聚合操作可以根据一定的条件来选择要保留或删除的桶。可以使用script脚本来定义替换的逻辑。例如,可以通过script脚本来修改文档字段的值,实现替换功能。 最后,可以根据需要进行数据的持久化操作。可以使用index操作将修改后的数据重新索引到Elasticsearch中,以便后续的搜索和分析操作。 总之,通过使用Elasticsearch聚合功能,可以方便地对数据进行分析和汇总,并实现替换功能。通过合理地定义聚合操作和使用适当的脚本,可以灵活地对数据进行处理,从而满足各种需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

喵呜刷题

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值