hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+kudu1.14.0+clickhouse21.4.6.55 流批一体数据仓库架构体系

最新推荐文章于 2024-06-24 14:57:21 发布

置顶科学的N次方

最新推荐文章于 2024-06-24 14:57:21 发布

阅读量778

点赞数 2

分类专栏：数据仓库技术体系

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenshijie2011/article/details/117222541

版权

数据仓库技术体系专栏收录该内容

135 篇文章 50 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了采用Flink构建的流批一体数据仓库架构，涉及ODS、DWD、DIM和DM层的数据处理流程。利用Flink进行实时ETL，结合Hadoop、Hive、Kafka、Kudu和Clickhouse等组件，实现数据的实时处理、存储和分析。同时，介绍了如何根据业务需求选择不同存储引擎，满足各种时效性和查询性能要求。

摘要由CSDN通过智能技术生成

目前整个过程的核心是flink
批处理选择用pyflink
流处理选择用java+flink
当然之所以这么选择，是跟我的技术栈有关。因为本人之前一直从事离线数仓的工作，批处理一直选择的脚本语言包括python,perl，甚至是kettle脚本。遇到实时数据处理，通常是springboot下面的消息订阅机制（activemq,rabbitmq,kafka）来处理。虽然也能应付实时的要求，但是数据量上来后明显感觉力不从心。另外维护两套引擎，维护工作实在是麻烦。直接看到flink的出现，感觉etl流批可以一体化了。

架构：
在这里插入图片描述

ODS:操作数据层，保存原始数据，对非结构化的数据进行结构化处理，轻度清洗，几乎不删除原始数据。
该层的数据主要来自业务数据库的 binlog 日志、埋点日志和应用程序日志。
对于 binlog 日志直接通过flink sdc 上报到Kafka 中。
除了存储在 Kafka 中，同时也会对业务数据库的 binlog 日志通过 Flink 写入 HDFS、Kudu 等存储引擎。
另外，对于埋点日志和应用程序日志，需要计算实时PV,UV的通过flume读入到kafka, 需要测算

了解本专栏

超级会员免费看

科学的N次方

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

科学的N次方 CSDN认证博客专家 CSDN认证企业博客

码龄14年

279: 原创

3万+: 周排名

1万+: 总排名

28万+: 访问

: 等级

5087: 积分

1101: 粉丝

1162: 获赞

41: 评论

665: 收藏

私信

关注

热门文章

分类专栏

数据仓库技术体系付费 135篇
AIGC 付费 18篇
mysql 11篇
java 13篇
python 11篇
智慧城市 2篇

最新评论

AI 是否会通过制造大量垃圾信息来污染互联网
silvasaga: 把可能去掉, 是在互联网, 已经产生了大量垃圾, 虚假的信息了
基于CNN-RNN模型的验证码图片识别
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
分类与预测算法评价的介绍
ha_lydms: 这篇博客的内容总是能够触动我的内心深处，让我对于人生有了更深层次的思考和体验。
如何使用逆滤波算法deconvwnr恢复图像
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
OpenCV如何使用分水岭算法进行图像分割
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

科学的N次方 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。