数据仓库-学习笔记

数据仓库

数仓有二位大神,Bill Inmon 和 Ralph Kimball。 Bill Inmon所写的书Buliding the data warehouse【中文版为数据仓库】, Ralph Kimball所写的The data Warehouse Toolkit【中文版为数据仓库工具箱】。 可以说 Bill Inmon 将Ralph Kimball 的理念,尤其是维度建模的理念融合了进去。 所以现在所说的数据建模是二位大神的融合体。

什么叫数据仓库?

在这里插入图片描述

Bill Inmon的书中,表示数据仓库是面向主题的,集成的,相对稳定的,反应历史变化的数据集合,用于支持管理决策。这也是数据仓库的官方定义。
面向主题意思是根据不同的业务,抽象出来的主题,进行数据集市的建设。
集成的意思是将不同渠道的数据汇总。
相对稳定意思是变动有限。

Ralph Kimball的书中, 表示,数仓是一个将源数据抽取,清洗,规格化,提交到维度数据存储的系统中,为决策制定提供查询和分析功能的支持和实现。

这二本书是由差别的, Bill Inmon的书是基于三范式去做的。 Ralph Kimball是将所有的数据统一到维度上去做。国内数仓建设方法基本是将二者揉在一起。数仓的定位是按照Bill Inmon的书来的,但是操作方法是按照 Ralph Kimbal的书来的。

为什么建立数仓

在说数仓时候,并不是飘在空中的问题,是一个很现实的问题。

什么情况下需要建设数仓?
(1)需要集中管理数据时;
(2)需要以更高效的方式使用数据;
(3)数据量和复杂度到了需要一个团队来维护的时候;
(4)需要数据驱动业务时;
(5)需要借助大数据力量提升产品竞争力;
(6)需要时刻知道业务发展的情况时;
(7)等等。。。。。。

但是,数仓的现实状态是这样的
在这里插入图片描述

所以在这个中间的过程,需要一个转化,于是出现了数据中台的概念。数据中台可以说包含了数仓的部分。
阿里的架构图
数仓涉及的是中间的部分

经过一两年后,业务稳定之后,底层架构也会稳定,就会感觉无法提升。而所能作的就是往上层迁移,做数据服务,应用,数据产品。模型趋于稳定后,可以做的事情越来越少。

什么是OLTP/OLAP

OLTP: 联机事务处理, 倾向于业务系统,讲的是事务性。
OLAP: 联机分析处理,在这里插入图片描述

维度: 观察事物的一个角度,比如从城市维度,渠道维度。
度量: 指标对应的一个值,比如订单量, uv,pv
下钻和上卷:看这里
切片和切块:看这里
旋转:行和列可以对调。 看这里


![在这里插入图片描述](https://img-blog.csdnimg.cn/20200614211616242.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NoZW56aGlxaWFuZzEwMTg=,size_16,color_FFFFFF,t_70) OLTP/OLAP 二者应用场景 OLTP只能应用在数据库上,OLAP主要是应用在数据仓库而言。实际上OLAP并不是指的数据仓库***,准确说OLAP是数仓的一个应用领域。***

模型设计的三个阶段

三个阶段分别是概念模型,逻辑模型,物理模型。 在OLTP和OLAP都存在这三个阶段。 原因是数仓的基础就是来自于数据库。

第一阶段 概念模型

概念模型: 主要是指通过分析和归纳,将业务划分为几个主题,并确定主题之间的关系。在这一步划分是比较粗的,每个公司业务形态不一样, 划分也是不一样的。 划分之后一般不会有很大变化。

第二阶段 逻辑模型

在这里插入图片描述
(1)Inmon推崇的是范式建模, Kimball推崇的是维度建模;
(2)即使在业务系统中,很多时候也不一定完全按照三范式建模,因为要求比较高;
(3)维度建模包含两种方式,星型建模和雪花型建模。
(4)范式建模和维度建模都会使用,只是使用的阶段不同,但是使用的维度建模更多;
(5)维度建模中,星型建模使用更多,因为冗余的信息更多,关联的信息会更少。大数据更擅长处理单个表,所以有时候会做大宽表。在雪花型中,因为有曾经关系,会反复的做关联,占据更多的计算资源。在这里就体现了反三范式。没有按照三范式建模。

第三阶段 物理模型

在这里插入图片描述

数仓基础组件

网站: https://mattturck.com/

数据模型对比

在业务系统中,更新数据的方式是根据组件更新的,是尽可能的影响小的数据范围;在数据仓库中是采用增量更新,或者全量更新。

维度建模的步骤:
在这里插入图片描述

案例:
在这里插入图片描述

按照4个建模维度:
在这里插入图片描述
从上面看出,在一条数据中,可能是存在多个维度信息的。 这就是一个多维的数据集。

问题:
如何描述一个表的基础信息?
答:就可以按照维度建模的4个步骤说。

事实表基本概念

维度建模就是将业务抽象成事实和维度两个概念。
如何构建事实表?
在这里插入图片描述
在这里插入图片描述

常见的事实表

分层里面的就叫明细表

(1)事物事实表
(2)周期快照事物表 【用的挺多】
(3)累计快照事实表 【用的挺多】
(4)无事实的事实表
(5)聚集事实表

CUBE表

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、课程简介随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据仓库技术是各大公司目前都需要着重发展投入的技术领域。数据仓库是面向分析的集成化数据环境,为企业所有决策制定过程,提供系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。二、课程内容本次精心打造的数仓项目的课程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。三、课程目标本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。四、课程亮点本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值