数仓 调度_干货知识贴:基于Flink构建实时数仓

本文介绍了实时数仓的重要性和架构演变,从离线大数据架构到Lambda、Kappa架构,再到实时数仓的分层设计。重点探讨了使用Flink作为实时计算引擎的原因,如高吞吐、低延迟、Exactly-once语义保障等,并阐述了FlinkSQL的优势。科杰大数据的实时计算平台提供元数据管理、SQL开发和任务监控等功能,助力企业实现实时数仓的落地。
摘要由CSDN通过智能技术生成

c9322ed4d608491e815346c90530aca7.gif

01数据仓库的趋势

数据仓库的建设是“数据智能建设”、“数字化”转型的一个必要且基础的环节;从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。

随着数据时效性在企业运营中的重要性日益凸现,例如,实时推荐、精准营销、实时风控、实时监控大屏、实时BI报表等,数据的实时处理能力成为企业提升竞争力的一大因素。

02数仓架构的演变

想要了解实时数仓的架构,就不得不从整个数据仓库的架构演变来进行展开;数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增,开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅以Hadoop技术体系替代了传统数据仓库工具,架构上并没有根本的区别,可以把这个架构叫做 离线大数据架构

后来随着业务实时性要求的不断提高,人们开始在离线大数据架构基础上加了一个加速层,使用流处理技术直接完成那些实时性要求较高的指标计算,这便是Lambda架构

再后来,实时的业务越来越多,事件化的数据源也越来越多,实时处理从次要部分变成了主要部分,架构也做了相应调整,出现了以实时事件处理为核心的Kappa架构

离线大数据架构

数据通过离线批量的方式同步进入到数据仓库中,通过构建数仓分层实现数据的ETL链路,最后通过多样式数据服务完成数据需求的满足,例如推送至业务端MYSQL、Hbase,或者是构建独立的数据集市DM等。

af983f7070e98e726f45fba29fe55060.png

离线大数据架构示意图

Lambda架构

随着实时性需求的提出,为了计算一些实时指标&#

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值