电商数仓-(数仓分层概念+数仓理论)

2 篇文章 1 订阅

数仓分层概念

为什么要分层

在这里插入图片描述

数据集市与数据仓库概念

在这里插入图片描述

数仓命名规范

表命名
 ODS层命名为ods_表名
 DWD层命名为dwd_dim/fact_表名
 DWS层命名为dws_表名
 DWT层命名为dwt_购物车
 ADS层命名为ads_表名
 临时表命名为xxx_tmp
 用户行为表,以log为后缀。
脚本命名
 数据源_to_目标_db/log.sh
 用户行为脚本以log为后缀;业务数据脚本以db为后缀。

数仓理论

范式理论

范式概念

1.定义
范式可以理解为设计一张数据表的表结构,符合的标准级别。 规范和要求
2.优点
关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的冗余性。
为什么要降低数据冗余性
(1)十几年前,磁盘很贵,为了减少磁盘存储。
(2)以前没有分布式系统,都是单机,只能增加磁盘,磁盘个数也是有限的
(3)一次修改,需要修改多个表,很难保证数据一致性
3.缺点
范式的缺点是获取数据时,需要通过 Join 拼接出最后的数据。
4.分类
目前业界范式有:
第一范式(1NF)、第二范式(2NF)、第三范式(3NF)
、巴斯-科德范式 (BCNF)、第四范式(4NF)、第五范式(5NF)。

函数依赖

在这里插入图片描述

三范式区分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

关系建模与维度建模

当今的数据处理大致可以分成两大类:联机事务处理 OLTP(on-line transactionprocessing)、联机分析处理 OLAP(On-Line Analytical Processing)。OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。二者的主要区别对比如下表所示。
在这里插入图片描述

关系建模

在这里插入图片描述
关系模型如图所示,严格遵循第三范式(3NF),从图中可以看出,较为松散、零碎,物理表数量多,而数据冗余程度低。由于数据分布于众多的表中,这些数据可以更为灵活地被应用,功能性较强。关系模型主要应用与 OLTP 系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。
在这里插入图片描述
维度模型如图所示,主要应用于 OLAP 系统中,通常以某一个事实表为中心进行表的组织,主要面向业务,特征是可能存在数据的冗余,但是能方便的得到数据。
关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以通常我们采用维度模型建模,把相关各种表整理成两种:事实表和维度表两种。

维度建模

在维度建模的基础上又分为三种模型:星型模型、雪花模型、星座模型。
在这里插入图片描述
在这里插入图片描述

维度表和事实表(重点)

维度表

维度表:一般是对事实的**描述信息**。每一张维表对应现实世界中的一个对象或者概念。
例如:用户、商品、日期、地区等
 维表的范围很宽(具有多个属性、列比较多)
 跟事实表相比,行数相对较小:通常<10 万条
 内容相对固定:编码表
时间维度表:
在这里插入图片描述

事实表

事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、件数、金额等),例如,订单事件中的下单金额。
每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键、通常具有两个和两个以上的外键、外键之间表示维表之间多对多的关系。
事实表的特征:
 非常的大
 内容相对的窄:列数较少
 经常发生变化,每天会新增加很多。
(1)事务型事实表
每个事务或事件为单位**,例如一个销售订单记录,一笔支付记录等,作为事实表里的一行数据。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。
(2)周期型快照事实表
周期型快照事实表中不会保留所有数据,只保留固定时间间隔的数据,例如每天或者每月的销售额,或每月的账户余额等。
(3)累积型快照事实表
累计快照事实表用于跟踪业务事实的变化。例如,数据仓库中可能需要累积或者存储订单从下订单开始,到订单商品被打包、运输、和签收的各个业务阶段的时间点数据来跟踪订单声明周期的进展情况。当这个业务过程进行时,事实表的记录也要不断更新。
在这里插入图片描述

数据仓库建模(绝对重点)

ODS 层

(1)保持数据原貌不做任何修改,起到备份数据的作用。
(2)数据采用压缩,减少磁盘存储空间(例如:原始数据 100G,可以压缩到 10G 左右)
(3)创建分区表,防止后续的全表扫描

DWD 层

DWD 层需构建维度模型,一般采用**星型模型,呈现的状态一般为星座模型。
维度建模一般按照以下四个步骤:
选择业务过程→声明粒度→确认维度→确认事实
(1)选择业务过程
在业务系统中,挑选我们
感兴趣的业务线,比如下单业务,支付业务,退款业务,物流
业务,一条业务线对应一张事实表。
(2)声明粒度
数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。声明粒度意味着精确定义事实表中的一行数据表示什么,应该尽可能选择
最小粒度,以此来应各种各样的需求。
典型的粒度声明如下:
订单中,每个商品项作为下单事实表中的一行,粒度为每次下单
每周的订单次数作为一行,粒度就是每周下单。
每月的订单次数作为一行,粒度就是每月下单。
(3)确定维度
维度的主要作用是描述业务是事实,主要表示的是“谁,何处,何时”等信息。
(4)确定事实
此处的“事实”一词,指的是业务中的度量值,例如订单金额、下单次数等。在 DWD 层,以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。事实表可做适当的宽表化处理。在这里插入图片描述
在这里插入图片描述
至此,数仓的维度建模已经完毕,DWS、DWT 和 ADS 和维度建模已经没有关系了。 DWS 和DWT 都是建宽表,宽表都是按照主题去建。主题相当于观察问题的角度。对应着维度表。

DWS 层

统计**各个主题对象当天行为**,服务于 DWT 层的主题宽表,以及一些业务明细数据,
应对特殊需求(例如,购买行为,统计商品复购率)。
在这里插入图片描述

DWT 层

以分析的**主题对象**为建模驱动,基于上层的应用和产品的指标需求,构建主题对象的全量宽表。
在这里插入图片描述

ADS 层

对电商系统各大主题指标分别进行分析。

  • 5
    点赞
  • 2
    评论
  • 24
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

一、课程简介<br /> <br /> 随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据库技术是各公司目前都需要着重发展投入的技术领域。数据库是面向分析的集成化数据环境,为企业所有决策制定过程,提供系统数据支持的战略集合。通过对数据库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。<br /> <br /> 二、课程内容<br /> <br /> 本次精心打造的数仓项目的课程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。<br /> <br /> <br /> 三、课程目标<br /> <br /> 本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。<br /> <br /> 四、课程亮点<br /> 本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。<br /> <br /> <br /> <div> <br /> </div>
©️2021 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值