大数据平台去重指标

大数据平台去重指标

在使用内存计算的任务中,去重指标都资源消耗是非常高的,因为去重指标会将明细数据和中间缓存结果数据以及逻辑计算放到内存中,所以很容带来资源消耗过高的情况,所以当去重数据量非常庞大到内存不够的情况下该怎么办呢?

有两种办法:精确去重、模糊去重
精确去重:明细数据必须保存下来,按数据倾斜的方法处理,将一个单个节点的压力分摊到多个节点上。
模糊去重:数据量很大,业务要求精度不高,可以使用相关算法(布隆过滤器、技术估计),降低内存使用量,提高内存使用率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值