redis统计用户日活量_大数据实时日活计算之Bloom Filter

本文介绍了在大数据实时日活计算中,如何利用Bloom Filter算法优化Redis存储,以减少内存使用并降低误判率。通过对比传统方案与Bloom Filter方案,展示了Bloom Filter在内存效率和过期key管理上的优势,同时指出了其可能的统计误差问题。
摘要由CSDN通过智能技术生成

原标题:大数据实时日活计算之Bloom Filter

需求背景

在做大数据统计时,需要实时统计APP各个时间段的用户活跃数,以此观察各个时段用户的访问情况,便于产品做更好运营策略,同时还能起到监控异常的作用。

实时统计框架

而实时统计通常采用的框架是kafka+storm+redis进行计算,如下图所示:

首先,通过flume收集日志,一份上传到HDFS上,通过mapreducer或spark进行离线计算;同时也会上传到Kafka,进行实时计算。

其次,storm接收kafka数据,实时进行业务分析和计算,将用户和计算结果存储在redis

最后,前端通过读取redis的计算结果在报表或图表中展示出来。而实时统计日活最重要的点是判断用户是否在该时间段内已经来过?简单方案

最简单的方式使用imei(用imei作为用户的惟一标示) + date(一般为一个小时或半个小时作为时间段) 作为key存储到redis,以此来判断用户是否在该时间段已经访问过APP。其流程图如下:

方法虽然简单可行,但存在的问题是,由于运营活动或其他原因造成用户活跃非常大,就会需要大量redis内存存储用户集合,而redis内存是比较昂贵的。那能否用少量内存来存储用户集合?我们很容易想到使用bit数组来存储用户集合,即用一位或多位表示一个用户,这就大大减少空间的使用。但因为imei是一串字符,如何把imei转化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值