数据仓库
文章平均质量分 67
BigData_001_Lz
这个作者很懒,什么都没留下…
展开
-
三种事实表
粒度是一个订单一行数据,创建订单时间,付款时间,发货时间,收货时间分别作为一个字段,便于计算不同业务过程的时间间隔。事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。订单支付金额和订单票数,两个事实的粒度为”订单级“,属于上一层订单级数据,与”票级“事实表的粒度不一致,且不仅能进行汇总;如大于、小于、等于等;应用0代替NULL;也称原子事实表,描述业务过程,跟踪控件或时间上某点的度量事件,保存的是最原子的数据;原创 2023-08-29 17:12:39 · 203 阅读 · 0 评论 -
四种常见的数据模型
由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性)三部分组成,是在ER关系模型上的衍生,同时设计的出发点也是为了数据 的整合,并非为数据决策分析直接使用。特点:设计思路自上而下,适合上游基础数据存储,同一份数据只存储一份,没有数据冗余,方便解耦,易维护,缺点是开发周期一般比较长, 维护成本高。星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为,一个事实表关联多个维度表,维度表再关联维度表。原创 2023-08-28 17:13:50 · 330 阅读 · 0 评论 -
什么是数据仓库?
数仓是分析数据的平台而不是创造数据的平台。数据仓库反映的是一段相当长的时间内的历史数据,是不同时间点数据库快照的集合,以及基于这些快照进行统计、综合以及重组的导出数据,数仓用户对数据的操作大多是数据查询或者比较复杂的挖掘,一旦数据进入数仓后,一般情况下会被长时间保留,数仓中一般有大量的查询操作,修改和删除的操作很少。数据仓库中的数据时限要远远长于操作性数据库的数据时限,操作性数据库存储的是当前数据,而数仓存储的是历史数据,数仓中的数据是按照时间顺序追加的,它们都带有时间属性。原创 2023-08-28 15:01:52 · 421 阅读 · 0 评论