根据目前业务优化的新架构

最新推荐文章于 2023-08-26 21:54:21 发布

lw305080

最新推荐文章于 2023-08-26 21:54:21 发布

阅读量377

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lw305080/article/details/50260281

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

接收的数据量目前有10倍增长，行为数据每天已有6000w数据量，后续肯定还会有10倍的增长。

1数据的接收、接收数据决定就用kafka(高的数据吞吐量，还可以作为短期的缓存，可作为数据核查和补数据用)。

2数据清洗、mr直接从kafka从获取数据进行清洗（去重，过滤，编码），生成宽表文件放到hdfs上，（这一步千万不要做拆表，不然后续需要join就会很耗时，此处是空间换时间）。

3hbase使用、会入hbase的数据，需要走增量更新的数据，和标签。

4标签的处理方式、标签不能走实时打的方式，因为如1、实时程序出现了bug,或数据出现了峰值，2、打标签的计算量会很大（用到的相关数据也会很大），会很耗时。

5标签的存储、hbase和es,hbase是打标签的时候使用和对批量用户做标签汇总是使用，es是方便按标签来筛选用户使用

6大表关联、把筛选后的人群，放到临时文件，入到gb表中，供对该部分人群的行为分析。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
根据目前业务优化的新架构

接收的数据量目前有10倍增长，行为数据每天已有6000w数据量，后续肯定还会有10倍的增长。1数据的接收、接收数据决定就用kafka(高的数据吞吐量，还可以作为短期的缓存，可作为数据核查和补数据用)。2数据清洗、mr直接从kafka从获取数据进行清洗（去重，过滤，编码），生成宽表文件放到hdfs上，（这一步千万不要做拆表，不然后续需要join就会很耗时，此处是空间换时间）。3hbase
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。