数据仓库之整体介绍,相关概念

我相信,绝大多数人都听过数据仓库这个概念,也在用着数仓相关产品。本篇主要是整合数仓相关知识,结合自己的业务,对数仓做一个整体的介绍。
本篇主要从数仓基本概念,数仓分层,数仓模型,数仓应用,数仓体系等方面来阐述。

一、关于数仓

1、数据仓库
数据仓库(Data WareHouse),简称DW,是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合。
2、为什么需要数仓?
(1)数据体量越来越大
(2)数据需要进行查询分析,业务数据库无法支撑高频、快速的查询需求
(3)数据权限限制,数据存储在各个部门或者各个业务系统,使用数据需要经过权限申请
(4)数据质量问题,数据脏乱查,数据不一致等问题存在
3、数仓理解
这一个概念里面,我们要理解,主题是什么,集成是什么,相对稳定是什么,反映历史变化是什么,以及数据仓库是一种什么理解?
(1)主题:这是一个抽象的概念。是在一个比较高的层次上,对公司一类业务进行综合,分析利用的概括。比如,留存分析,活跃分析等。
(2)集成:将全公司的数据集中在一个体系中,解决数据分散,数据不一致,数据权限限制等问题。
(3)相对稳定:数仓里的数据进入数仓之后,用于支撑数据查询,数据的删除和修改比较少。
(4)反映历史变化:数仓数据中的数据通常包括时间信息,能够记录数据从某一个时间到现在的变化。
(5)数仓是什么:数据仓库是一个存储概念,也可以是一个存储方式。
4、数仓相关名词
数据仓库相关知识中还涉及很对的名词,这里就不解释了,在下面提到的话再解释。

[主题,主题域,事实表,维度表,宽表,OLAP,分区,分桶,数据立方体,元数据管理]

二、数仓分层

了解数据的一些基本信息后,可能还是会有一个疑问,数仓到底是怎么样的?
我们了解数仓分层之后,就知道数仓到底是怎么样的,以及它是如何实现它的那四个特点的。
再简单理解,如下图,数仓就是大致处于这样的位置,发挥承转的作用。
业务各个系统的数据通过ETL同步到ODS层。经过清洗、汇总等手段加工数据同步到EDW层,再对数据进行聚合,选择,后到DM层,最后,数据可用于各类数据产品中。
在这里插入图片描述

1、数据仓库分层
数仓可以分为3/4/5层,不同公司,会选择不同分层。
(1)ODS层(操作型数据层)
原始数据层:未经过加工的原始数据。通过ETL,将业务系统数据同步到ODS层,与业务系统的数据基本保持一致。增加标识日期的分区信息,不对数据做改变。
在这里插入图片描述
这里还有一个分区的概念。
(2)中间层 EDW(企业级数据库)
经过加工整合的数据层,数据清洗,维度退化,脱敏等。主要包含已经整合好的明细数据和汇总数据。
DWB(基础数据层):有些公司有,有些没有。对ODS层数据进行简单的、基础的加工。
DWD(数据明细层):从ODS层进来之后,经过简单的数据清洗加工
DWS(数据汇总层):从DWD层进来之后,进行数据汇总
DIM(维表层):例如地区,时间等维度信息

(3)DM(数据集市层)
这一层,采用多维度模型,按照多种维度组合,把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储。不同主题不同宽表,满足特定查询,多维分析等。

三、数仓与主题

数仓中最重要的理解是主题,无论是在构建数据仓库时还是在使用数仓相关数据产品时。
主题是一个抽象集成的概念。数据仓库是面向主题的。主题域通常是联系较为紧密的主题的集合。
1、主题域划分
主题域划分的原则不同公司不同,大致可以按这几类来分:
按照业务或者业务过程,比如用户域,内容域,产品域,营收域等
按照部门划分,比如,技术域,运营域等
按照需求划分,比如财务域,人力域等
按照产品功能划分,比如基础模块域,硬装模块域等。
主题怎么划分,需要技术开发人员与数据相关人员共同确定。
2、主题域(主题)划分案例
熟悉业务,梳理业务,根据公司特点,选择合适的划分方式。在这里插入图片描述
3、数仓与主题
数仓的构建有层级建设以及主题建设,横向纵向进行。
再结合主题,我们对于数据仓库的理解更深。我这里基本举例都是用的三层模型
在这里插入图片描述

四、数据模型

数据在数据仓库中是以什么样的形式存储的?
这个就涉及到数据仓库的数据模型了。
数据仓库中比较常见的建模方式(对于数据上)主要是范式建模和维度建模。
1、范式建模
一般使用范式建模(第三范式)的话会在ODS、EDW层,规范化管理数据,扩展性较好,避免冗余和更新异常。
其他的范式相关的,可以自行查找。主要是解决关系型数据库存储数据问题。
2、维度建模
注:以下连接线均为虚线,因为软件问题,没办法将下面实线更正成虚线,故在此说明。
(1)星型模型
星型模型,即像星星一样,一个事实表直接与多个维度表连接。
在这里插入图片描述
(2)雪花模型
雪花模型是在星型模型上的升级,一个事实表+多个维度表,维度表还可以再连接其他的维度表,
在这里插入图片描述
(3)事实星座模型
星型模型是基于一张事实表的,而星座模型则是基于多个事实表的,而且,事实表间共享维度信息。
在这里插入图片描述

五、数仓应用

相信看完上述关于数仓的基本知识,已经了解数仓。那数仓到底是怎么用的?
数仓是为更好的使用数据,所以,跟数仓相关的应用非常多。举例:
软件应用:BI报表系统,决策系统,自助查询平台这些是比较常见的,基本上也是和数仓息息相关的。
数据内容:用户画像,指标体系,标签体系这些是基于具体的业务,也是服务于具体的业务的
数据管理:数据字典,指标字典等

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值