2024年大数据最新实时数仓之实时数仓架构(Hudi)

  • 技术框架

    • Kafka:用于接入数据源;
    • Flink CDC:如果直接接入业务数据源可以考虑CDC方式,如果通过Kafka缓冲接入业务数据可以忽略;
    • Flink:用于数据ETL,包括接入数据、处理数据及输出数据全链路数据计算任务;
    • Spark:用于数据ETL,包括处理数据及输出数据全链路数据计算任务;
    • Hudi:湖仓一体数据管理框架,用来管理模型数据,包括ODS/DWD/DWS/DIM/ADS等;
    • Doris:OLAP引擎,同步数仓结果模型,对外提供数据服务支持;
    • Hbase:用来存储维表信息,维表数据来源一部分有Flink加工实时写入,另一部分是从Spark任务生产,其主要作用用来支持Flink ETL处理过程中的Lookup Join功能。这里选用Hbase原因主要因为Table的Hbase Connector支持异步IO功能。
    • Hera:调度系统,用来调度离线Spark任务;
    • StreamX:Flink任务管理工具,用于部署管理以及监控Flink实时任务;
  • 数仓架构

采用维度模型标准三层架构,ODS/DWD/DWS/DIM/ADS,分层架构符合Kimball维度模型建仓指导原则。

+ ODS层:增量方式接入业务数据和日志数据,
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值