数据漂移的理解

数据漂移的概念:
同一业务日期下的数据包含了不属于该业务日期的数据(上一天数据漂移到当天,或者当天数据漂移到下一天)或者缺失了该业务日期数据或该业务日期下的数据非最新
数仓常用4个时间介绍
(1)数据库表中用于记录具体业务过程发生时间的时间戳字段(假设这类字段叫create_time);
(2)数据库表中用来表示数据记录更新时间的时间戳字段(假设这类字段叫update_time);
(3)数据库日志表中用来表示数据记录更新时间的时间戳字段(假设这类字段叫log_time);
(4)标识数据记录被抽取到时间的时间戳字段(假设这类字段叫extract_time);
假设的场景:
一张订单业务表,按照上述某一个时间所对应的日期做分区,每个分区只存当天的数据
可能出现的问题及解决方案:
(1)以create_time抽取数据,用其对应的日期作为分区字段:
由于create_time为业务记录产生的时间,这个分区内只会有产生时刻的数据,对于不同更新策略所产生的问题也不同
①T+1更新:对于分区内所有产生更新的数据,都有1天的延迟,只有在T+2天才会更新T+1分区内的数据,且当天分区中会存在下一天数据,对于实时性及业务应用较高的情况下,影响较大
②H+1更新:若为每个分区覆盖写,每个分区更新的数据都有1小时的延迟,若为只当前时间分区插入,则每个分区更新的数据,不会产生更新
(2)以update_time对应的日期作为分区字段:
无论是T+1还是H+1更新,每个分区内只会有更新时间对应的日期的数,但是每个分区内会存在业务时间跨多天的数据
(3)以log_time对应的日期作为分区字段
对于操作记录表,操作记录是根据操作时间从前至后的,每个分区内会存在业务时间跨多天的数据
(4)工作中不常用
结合目前实际业务需求,工作中使用的方法:
对于有经常变更的业务数据,我们采用的办法是,维护一张同时具有T+1分区(全量)和一个H+1分区(当天更新)的业务表
其中,T+1分区用create_time限制创建时间小于当天的历史全量数据,这样可保证T+1分区皆为历史数据
H+1用update_time抽取更改时间为当天更改及新增全部的数据,这样可保证H+1分区中有变更的数据
在使用中结合历史数据与当天变更数据,以主键为分组用update_time倒序排列,取出每个主键唯一一条记录。
ps.此上为读《阿里巴巴大数据之路》数据漂移的一些浅显理解,并结合实际工作的一些感想,请多多指教~

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值