B 站构建实时数据湖的探索和实践

阿里开发者

于 2023-05-29 10:17:55 发布

阅读量121

点赞数

文章标签：大数据 kafka spark 开发语言运维

原文链接：https://developer.aliyun.com/article/1211753?utm_content=g_1000372890

版权

文章介绍了B站在大数据场景中的实时数据处理策略，采用Kafka和Flink处理高时效性数据，Spark和HDFS处理低时效性数据。数据采集自APP行为事件和日志，经过Datax同步至数仓，服务于AI和BI的模型训练及报表分析。

摘要由CSDN通过智能技术生成

一、背景和痛点

在大数据场景应用中，业务不仅要计算数据结果，而且要保障时效性。目前，我司演化出两条链路。时效性高的数据走 Kafka、Flink 实时链路；时效性要求低的数据走 Spark 离线链路。上图简单描述了 B 站数据上报、处理和使用的链路。数据采集主要通过 APP 端上报的行为事件数据。服务端上报的日志数据会通过网关以及分发层，流式分发到大数据数仓体系内。

MySQL 中存储的业务数据，通过 Datax 周期性的批式同步到数仓内。时效性高的数据会通过 Flink+Kafka 进行流式计算。时效性低的数据通过 Spark+HDFS 进行批计算最后出仓到 MySQL Redis Kafka 的介质中，为 AI、BI 的模型训练、报表分析场景使用。

完整内容请点击下方链接查看：

B 站构建实时数据湖的探索和实践-阿里云开发者社区

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容

阿里开发者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。