实时数仓之 Kappa 架构与 Lambda 架构(建义收藏)

本文深入探讨了数据仓库的概念,从离线大数据架构到实时处理的Lambda架构,再到Kappa架构。Lambda架构通过批处理和实时处理确保数据准确性,但维护复杂;Kappa架构简化了流程,依赖流处理引擎的重放功能,减少了重复开发,但可能面临重处理历史数据的效率问题。
摘要由CSDN通过智能技术生成

大家好,今天 给大家重点分享一下离线数仓与实时数仓的内容。 我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍

  1. 数据仓库概念

  2. 离线大数据架构

  3. Lambda 架构

  4. Kappa 架构

  5. Lambda 架构与 Kappa 架构的对比

1 数据仓库概念

数据仓库是一个 面向主题的 (Subject Oriented)、 集成的 (Integrate)、 相对稳定的 (Non-Volatile)、 反映历史变化 (Time Variant)的数据集合,用于支持管理决策。

数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临,数据量暴增,开始使用 大数据工具 来替代经典数仓中的传统工具。此时仅仅是工具的取代,架构上并没有根本的区别,可以把这个架构叫做 离线大数据架构

后来随着业务实时性要求的不断提高,人们开始在 离线大数据架构 基础上加了一个加速层,使用流处理技术直接完成那些实时性要求较高的指标计算,这便是 Lambda 架构。

再后来,实时的业务越来越多,事件化的数据源也越来越多,实时处理从次要部分变成了主要部分,架构也做了相应调整,出现了以 实时事件处理为核心的 Kappa 架构 。

2 离线大数据架构

数据源通过离线的方式导入到离线数仓中。下游应用根据业务需求选择直接读取 DM 或加一层数据服务,比如 MySQL 或 Redis。 数据仓库从模型层面分为三层:

ODS,操作数据层,保存原始数据;

DWD,数据仓库明细层,根据主题定义好事实与维度表,保存最细粒度的事实数据;

DM&#x

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值