Elasticsearch 对于大数据量(上亿量级)的聚合如何实现?

Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数,即该字段的 distinct 或者unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是:可配置的精度,用来控制内存的使用(更精确 = 更多内存);小的数据集精度是非常高的;我们可以通过配置参数,来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关。

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Elasticsearch是一个开源的实时分布式搜索和分析引擎,可以用于存储、搜索和分析各种类型的数据。在Elasticsearch中,聚合(Aggregation)是一种用于对数据进行分析和汇总的功能,可以根据一定的条件和计算逻辑对数据进行分组、过滤、统计等操作。 要实现替换功能,可以通过聚合数据来实现。首先,需要确定需要替换的字段和替换的值。然后,可以使用聚合操作来找到符合条件的文档并进行替换。 首先,需要使用聚合操作来聚合数据并获取符合条件的文档列表。可以使用诸如terms、range、filter等聚合操作来定义条件。例如,使用terms聚合操作来根据某个字段的值进行分组,然后使用filter聚合操作来过滤符合条件的文档。 接下来,可以使用bucket_selector聚合操作来对符合条件的文档进行替换。bucket_selector聚合操作可以根据一定的条件来选择要保留或删除的桶。可以使用script脚本来定义替换的逻辑。例如,可以通过script脚本来修改文档字段的值,实现替换功能。 最后,可以根据需要进行数据的持久化操作。可以使用index操作将修改后的数据重新索引到Elasticsearch中,以便后续的搜索和分析操作。 总之,通过使用Elasticsearch聚合功能,可以方便地对数据进行分析和汇总,并实现替换功能。通过合理地定义聚合操作和使用适当的脚本,可以灵活地对数据进行处理,从而满足各种需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值