2021.4.24数据仓库之维度建模与数据仓库分析模型

课前回顾:
数据库与ER建模,数据库指的是关系型数据库,数据库里面这些表符合三范式,这三范式分别是什么自己回忆一下,后面又提到ER实体关系模型建模,我们提到了给你一个业务场景,需要建表的时候要抽离出来实体、属性、关系,画出ER实体关系模型图,实体用方框表示,属性用椭圆表示,关系用菱形来表示,更习惯的是把ER实体关系模型图转成IDEF1X表的格式看起来更舒服,后面又提到了为什么要构建数据仓库,数据仓库说了几点关系型数据库解决不了的问题,主要大致分为两点,1点关系型数据库里存的数据,都是面向OLTP的操作,联机事务处理,都是支撑web平台正常运行的业务类型的数据,主要是增删改查事务类型的数据,我们要做企业级的数据分析的时候,需要站在一个角度去观察数据,比如一个企业里有很多业务系统,可能这些业务系统之间的数据没有半毛钱关联,这时候就要构建数仓把数据集合在一起,第二个方面,我们说关系型数据库里存的业务类型的数据不适合做数据分析,比如一些日志数据根本就不存,往往这种日志的数据更有价值,还需要构建数据仓库,把这些数据采集过来。主要是这两点。
又说了数据仓库的概念,什么是面向主题,什么是集成的,什么是相对稳定,以及反应历史变化的,这就是数据仓库的定义,以后听到DW或DWH或者DataWarehouse指的就是数据仓库。
后面又说了数据仓库的发展过程,整体来看分为萌芽阶段,探索阶段,雏形阶段,确立阶段,有两个标志性的人物,Bill Inmon他提出来数据仓库的原则,现在也是用的他提出来的数据仓库的原则,他主张的是自上而下的构建数据仓库,数据集市中的数据全部来源于数据仓库,一个企业一个大的数据仓库,这种方式的问题在严格按照了范式建模的方式,分析效率非常低下,后期有一个拉尔夫金博尔提出自下而上的方式建立数据仓库,理论有点不同,他认为一个企业的数据仓库是由很多的数据集市来组成的,每一个业务库可以对应一个集市,这集市组成了数据仓库,构建数据集市的建模方式不再是按照范式的建模方式,而是按照维度的建模方式,他提出数据集市和维度建模的概念。
两派一直在争论是自上而下还是自下而上,实际上都有各自的优缺点,但是后期Bill Inmon提出了新的BI架构CIF,把两种的优势集中在一起,针对不同的数据仓库的层,采用不同的建模方式,来解决你的分析效率问题,以及数据不一致性的问题。

什么叫维度建模?
主要是源自于数据集市,金博尔提出来的,主要面向分析场景。
维度建模里面认为,在建表的时候,不应该按照三范式的方式去建表,因为适合业务系统,支撑平台正常运行的数据可以存在范式的模型里面,我们要做数据分析肯定有大量的表的关联,做数据分析的时候按照范式的方式肯定效率会有影响,要把很多的表关联在一起,提出来维度建模是违背三范式的,维度建模主要有两种类型的表。事实表和维度表。先来介绍一下事实表是什么:
事实表是发生在现实世界中的一个操作事件,以及其所产生的可度量的数值,都是存储在事实表里面的,比如订单销量表,用户登陆系统,以及在系统里面进行的一些操作,几点几分点击了页面,也是一个操作性的事件,产生了可度量的值,凡是现实中的操作的事件以及有度量的值,把这些数据集成在一起就形成了事实表。有什么特点呢?

维度是观察数据的角度。前面也提到了,数据仓库是面向主题的,一个大的主题涵盖了很多维度。

一个很重要的概念:事实表是由维度和度量来组成的。

事实表的一些特点:
这些维度全都是用代号来表示的,为什么要用代号来表示,完全可以把地区写成北京,把产品写成华为手机,把月份直接写成一月份,实际上这个事实表是描述操作型事件的,产生的数据量非常多,事实表的增量非常非常多,如果写成描述型的文字,占的空间会非常非常大,所有这些维度列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值