ETL
曦云沐
抟扶摇而上者九万里
展开
-
【ETL】拉链表算法
所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 在历史表中对客户的一生的记录可能就这样几条记录,避免了按每一天记录客户状态造成的海量存储的问题:(NAME)人名 (START-DATE)开始日期 (END-DT)结束日期 (STAT)状态 client 19000101 19070...转载 2018-06-24 09:31:06 · 1007 阅读 · 0 评论 -
拉链表设计
在企业中,由于有些流水表每日有几千万条记录,数据仓库保存5年数据的话很容易不堪重负,因此可以使用拉链表的算法来节省存储空间。1.采集当日全量数据存储到 ND(当日) 表中。 2.可从历史表中取出昨日全量数据存储到 OD(上日数据)表中。3.用ND-OD为当日新增和变化的数据(即日增量数据)。两个表进行全字段比较,将结果记录到tabel_I表中4.用OD-ND为状态到此结束需要封链的数据。 (需要修...转载 2018-06-24 09:40:29 · 465 阅读 · 0 评论 -
拉链表的展开算法
在做数据仓库项目的过程中,有时候可能也会根据历史拉链表,展开为每天全量表;相当于一个还原的过程,即构建拉链表的反过程。1、建表及插入测试数据语句 --建表语句--生成EDW_T00_H表(历史拉链表)--CreatetablecreatetableEDW_T00_H(IDVARCHAR2(2)notnull,...转载 2018-06-24 09:51:10 · 855 阅读 · 0 评论