大数据平台去重指标 在使用内存计算的任务中,去重指标都资源消耗是非常高的,因为去重指标会将明细数据和中间缓存结果数据以及逻辑计算放到内存中,所以很容带来资源消耗过高的情况,所以当去重数据量非常庞大到内存不够的情况下该怎么办呢? 有两种办法:精确去重、模糊去重 精确去重:明细数据必须保存下来,按数据倾斜的方法处理,将一个单个节点的压力分摊到多个节点上。 模糊去重:数据量很大,业务要求精度不高,可以使用相关算法(布隆过滤器、技术估计),降低内存使用量,提高内存使用率。