数仓建模—实时数仓架构发展史

本文讲述了实时数仓架构的发展历程,从1.0时代的Kafka+Flink基础架构,解决实时报表需求,到2.0时代的批流一体和数据湖技术(如Delta, Hudi, Iceberg),统一存储解决数据存储和查询问题,再到3.0时代的计算引擎统一,如Spark或Flink与数据湖结合,实现SQL和计算的统一。实时数仓的演进旨在提高数据处理效率和实时性,同时降低维护成本。" 105893653,7825138,深度强化学习DRL实战:倒立摆与自定义组件,"['深度学习', '强化学习', '机器学习', 'TensorFlow']
摘要由CSDN通过智能技术生成

实时数仓架构发展史

当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。

但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。

实时数仓1.0

传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。

对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级;另一类诸如大部分实时报表的需求通常没有非常高的时效性要求,一般分钟级别,比如10分钟甚至30分钟以内都可以接受。

对于第一类实时数据场景来说,业界通常的做法比较简单粗暴,一般也不需要非常仔细地进行数据分层,数据直接通过Flink计算或者聚合之后将结果写入MySQL/ES/HBASE/Druid/Kudu等,直接提供应用查询或者多维分析。如下所示:

图片

而对于后者来说,通常做法会按照数仓结构进行设计,我们称后者这种应用场景为实时数仓,将作为本篇文章讨论的重点。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不二人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值