根据目前业务优化的新架构

接收的数据量目前有10倍增长,行为数据每天已有6000w数据量,后续肯定还会有10倍的增长。

1数据的接收、接收数据决定就用kafka(高的数据吞吐量,还可以作为短期的缓存,可作为数据核查和补数据用)。

2数据清洗、mr直接从kafka从获取数据进行清洗(去重,过滤,编码),生成宽表文件放到hdfs上,(这一步千万不要做拆表,不然后续需要join就会很耗时,此处是空间换时间)。

3hbase使用、会入hbase的数据,需要走增量更新的数据,和标签。

4标签的处理方式、标签不能走实时打的方式,因为如1、实时程序出现了bug,或数据出现了峰值,2、打标签的计算量会很大(用到的相关数据也会很大),会很耗时。

5标签的存储、hbase和es,hbase是打标签的时候使用和对批量用户做标签汇总是使用,es是方便按标签来筛选用户使用

6大表关联、把筛选后的人群,放到临时文件,入到gb表中, 供对该部分人群的行为分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值