数仓建模-增量表及全量表

判断一张表是增量表还是全量表,我认为有以下步骤:

1.这张表是基础数据表还是统计数据表(基础数据表一般来自业务系统的明细记录数据,统计数据表则为基于明细记录数据通过各种统计口径的统计表)。

2.判断这张表的同步方式(基础数据表)或者统计主题(统计数据表)。

3.根据以上步骤得出这张表是增量还是全量表。

 

举两个例子:

第一个例子是基础数据表的例子。

1.比如电商每天都会产生用户浏览数据,首先这张表属于基础数据表,如果表存储的就是所有的用户的所有浏览记录,则这张表应该是全量表(这点应该没问题)。

因为所有用户的所有浏览数据太大了,所以想分开存储,假如说每天产生的浏览记录,这张表存储的是发生在和时间分区当天的用户浏览记录,在从浏览记录宽表获取数据的时候,限定了浏览时间为当天发生的浏览时间,这张表属于基础数据表,但是它是增量表。

基础数据表还是比较好判断全量表还是增量表。

 

 

第二个例子是统计数据表的例子。

2.用户标签类型统计数据表,比如说这张表它的统计指标基本都是近90天的统计周期:近90天用户浏览量等等,那有些同学可能就会认为这张表用的数据量不是全量的,所以它是增量表。

这种想法其实比较正常,但是我们需要知道统计的主题是谁,真正统计的主体是全量用户,并没有对用户注册时间等做状态限制,比如说注册时间大于6个月的用户,所以统计主体是全体用户,这些近90天的指标只是统计主题的一些维度,或者说属性。

所以这张表是全量表。

 

 

--20210319更新

阿里对于统计表的后缀就统一设置为df(周期快照型事实表一般就是指标统计表)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值