金融数据仓库系列-数据拉链

在数据仓库的表设计通常会根据业务情况和源系统对数据的存储情况对仓库的表进行设计以便更好的利用存储资源和完成保留数据记录,通知表的设计分如下几种方法:

1. 全量表:每天的所有的最新状态的数据,缺点:浪费存储空间
2. 增量表:每天的新增数据,增量数据是上次导出之后的新数据。
3. 拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。
4. 流水表: 对于表的每一个修改都会记录,可以用于反映实际记录的变更。 

什么是数据拉链?

拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。

 

为什么要做数据拉链?

  • 1. 数据量比较大,在数据跑批的时候占用资源并且跑批时间过长,影响报表出数据等
  • 2. 表中的部分字段会被update,如用户电话号码、用户地址、账户余额等字段
  • 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等;
  • 4. 变化的比例和频率不是很大,比如,总共一张5000万的客户信息表,只有不到200万的客户信息修改
  • 5. 如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值