数仓理论(简单的总结一下)

一直想抽个时间想把学过的知识点再巩固一下,毕竟知识点这玩意儿,稍微不复习就会丢掉


什么是数据仓库

数据仓库是指具有主题导向、整合性、长期性与稳定性的数据群组,是经过处理整合,且容量特别大的关系数据库,用以储存决策支持系统所需的数据,供决策支持和数据分析使用。

四大特性
  • 主题性:针对特定场景 抽象出数据 单独分析一个相关的领域
  • 集成性:数据仓库中的大部分数据源于传统的数据库。数据”在进入数据仓库之前必须经过抽取、清洗、转换才能生成从面向事务转而面向主题的数据集合。
  • 稳定性:数据仓库的数据主要用于决策分析 不允许修改
  • 动态性:随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。
数据库与数据仓库的区别
数据库数据仓库
数据库是面向事务的设计数据仓库是面向主题设计的
一般存储在线交易数据存储一般是历史数据 ,基于时间的大规模的数据
数据库避免冗余,一般采用符合范式的规则来设计数据仓库有意冗余,采用反范式的方式来设计 数据仓库会将数据进行多个备份 一确保数据仓库的可靠性和高效性
数据库是为捕获数据而设计数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表
数据库处理频繁 小批次 高并发 低延迟数据仓库非频繁 大批量 高吞吐 有延迟
数据仓库-> 数据中台 -> 数据湖 的概念

数据仓库:是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
数据中台:数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念
将数据生成为一个个数据API服务,以高效的方式提供业务
数据湖 以原始格式存储数据的存储库或系统。他按照原样存储数据,无需实现对数结构处理

数仓分层
分层的作用
  1. 清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
  2. 数据血缘追踪:简单来讲可以这样理解,我们最终给业务呈现的是一张能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
  3. 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
  4. 把复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
  5. 屏蔽原始数据的异常:屏蔽业务的影响,不必改一次业务就需要重新接入数据。
分层
  • ODS 数据贴源层
  • 数据仓库 DW:
    – DWD data Warehouse detail 数据明细层
    – DWM data warehouse middle 数据中间层
    – DWS data warehouse service 数据服务层
  • ADS 数据应用层
每层的作用
  • ODS 将数据源中的数据经过处理之后装入 大多按照业务系统的分类方式而分类的
  • 数据仓库层 从ODS层中获得的数据 按照主题建立各种数据模型
  • 数据应用层 提供数据产品使用的结果数据
范式建模与维度建模

维度建模 总线式 的自下而上(DM DW ODS)的数据仓库架构 更具引用推宽表形式
范式建模 集线器的自上而上(ODS EDW DM)的数据仓库架构 底表抽象通用逻辑

事实表和维度表
  • 维度表:对分析主题所属类型的描述 信息比较固定 信息量比较小 如时间维度 地点维度
  • 事实表:分析主题的度量 包含了与各个维度表相关联的外码 通过join的方式与维度表关联 事实表的度量通常是数值类型,且记录数会不断增加
    表规模迅速增长
三种数据模型
星型

事实表和若干维度表组成:

  • 维度只和事实表关联 维度表之间没有关联
  • 每个维表的主码为单列 且该主码放置在事实表中,作为两边连接的外码
  • 以事实表为核心 维度表围绕核心呈星型发布
    在这里插入图片描述
雪花型

星型模式的扩展:

  • 每个维度表可以继续连接多个子维度 相对于将星型的大维度表拆分为小维度
  • 但维度表之间的关联使得开发难度很大 很难实现 所以使用很少

在这里插入图片描述

星座型

多个星型模型的拓展:

  • 模型中可以存在多个
  • 一个维度表被多个事实表使用
  • 业务发展到后期 绝大多数使用星座模型
    在这里插入图片描述
宽表

从字面意义上讲就是字段比较多的数据库表。
窄表 严格按照数据库设计三范式。尽量减少数据冗余,但是缺点是修改一个数据可能需要修改多张表

ETL

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

数据立方体

概念:数据立方体是一种对多维的数据模型的描述方式。立方体只是三维的,但是实际数据中不仅仅是三维,可能是四维,五维的。
操作:切片,切块,旋转,上卷,下钻

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值