原标题:大数据实时日活计算之Bloom Filter
需求背景
在做大数据统计时,需要实时统计APP各个时间段的用户活跃数,以此观察各个时段用户的访问情况,便于产品做更好运营策略,同时还能起到监控异常的作用。
实时统计框架
而实时统计通常采用的框架是kafka+storm+redis进行计算,如下图所示:
首先,通过flume收集日志,一份上传到HDFS上,通过mapreducer或spark进行离线计算;同时也会上传到Kafka,进行实时计算。
其次,storm接收kafka数据,实时进行业务分析和计算,将用户和计算结果存储在redis
最后,前端通过读取redis的计算结果在报表或图表中展示出来。而实时统计日活最重要的点是判断用户是否在该时间段内已经来过?简单方案
最简单的方式使用imei(用imei作为用户的惟一标示) + date(一般为一个小时或半个小时作为时间段) 作为key存储到redis,以此来判断用户是否在该时间段已经访问过APP。其流程图如下:
方法虽然简单可行,但存在的问题是,由于运营活动或其他原因造成用户活跃非常大,就会需要大量redis内存存储用户集合,而redis内存是比较昂贵的。那能否用少量内存来存储用户集合?我们很容易想到使用bit数组来存储用户集合,即用一位或多位表示一个用户,这就大大减少空间的使用。但因为imei是一串字符,如何把imei转化