业务数仓笔记

1  电商业务流程

2  数仓理论

        SKU=Stock Keeping Unit(库存量单位)。即库存进出计量的基本单元,可以是以件,盒,托盘等为单位。

        SPU(Standard Product Unit):标准化产品单元。是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。

2.1  表的分类

2.11  实体表

        实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。

用户表:

用户id

姓名

生日

性别

邮箱

用户等级

创建时间

1

张三

2011-11-11

zs@163.com

2

2018-11-11

2

李四

2011-11-11

ls@163.com

3

2018-11-11

3

王五

2011-11-11

中性

ww@163.com

1

2018-11-11

2.1.2   维度表  

        维度表,一般是指对应一些业务状态,代码的解释表。也可以称之为码表。比如地区表,订单状态,支付方式,审批状态,商品分类等等。

订单状态表:

订单状态编号

订单状态名称

1

未支付

2

支付 

2.1.3  事务型事实表       

        事务型事实表,一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。一般比如,交易流水,操作日志,出库入库记录等等。

2.1.4  周期型事实表       

        周期型事实表,一般指随着业务发生不断产生的数据。与事务型不同的是,数据会随着业务周期性的推进而变化。比如订单,其中订单状态会周期性变化。再比如,请假、贷款申请,随着批复状态在周期性变化。

2.2  同步策略        

        数据同步策略的类型包括:全量表、增量表、新增及变化表、拉链表

        全量表:存储完整的数据。

        增量表:存储新增加的数据。

        新增及变化表:存储新增加的数据和变化的数据。

        拉链表:对新增及变化表做定期合并。

2.2.1  实体表同步策略

        实体表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。

2.2.2  维度表同步策略      

        维度表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。

说明:

        1)针对可能会有变化的状态数据可以存储每日全量。

        2)没变化的客观世界的维度(比如性别,地区,民族,政治成分,鞋子尺码)可以就存一份固定值。

2.2.3  事务型事实表同步策略

        事务型事实表:比如,交易流水,操作日志,出库入库记录等。

        因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成每日增量表,即每日创建一个分区存储。

 2.2.4  周期型事实表同步策略        

        每日新增及变化量可以用,包括了当日的新增和修改。一般来说这个表,足够计算大部分当日数据的。但是这种依然无法解决能够得到某一个历史时间点(时间切片)的切片数据。 所以要用利用每日新增和变化表,制作一张拉链表,以方便的取到某个时间切片的快照数据。所以我们需要得到每日新增及变化量。

3  范式理论

        关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的冗余性

        范式的标准定义是:符合某一种级别的关系模式的集合,表示一个关系内部各属性之间的联系的合理化程度。通俗地讲,范式可以理解为一张数据表的表结构,所符合的某种设计标准的级别。        

         使用范式的根本目的是:

          1)减少数据冗余,尽量让每个数据只出现一次。

          2)保证数据一致性

         缺点是获取数据时,需要通过join拼接出最后的数据。

 3.1  函数依赖

  • 完全函数依赖
  • 部分函数依赖
  • 传递函数依赖

3.2   三范式区分

第一范式:属性不可切割

第二范式:不能存在“部分依赖函数”

第三范式:不能存在“传递依赖函数”

3.3   关系建模与维度建模

        OLTP与OLAP:

        据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

3.3.1  关系模型

        关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。

3.3.2 维度模型

        维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。

        所以把相关各种表整理成两种:事实表和维度表两种。所有维度表围绕着事实表进行解释。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值