一、kettle介绍
二、数据仓库开发
1. 表结构介绍和导入数据
2. 缓慢变化维
a.拉链表存储历史快照代码实现
操作步骤:
在原有dw层表上,添加额外的两列:生效日期(dw_start_date)、失效日期(dw_end_date);
只同步当天修改的数据到ods层;
拉链表算法实现:编写SQL处理当天最新的数据;编写SQL处理dw层历史数据,重新计算之前的dw_end_date;
拉链表的数据为:当天最新的数据 UNION ALL 历史数据
代码实现
2019年12月20日数据
1.MySQL数据库导入12月20日数据(4条数据)
2.全量同步MySQL数据到Hive ods层表
3.编写SQL从ods导入dw当天最新的数据
-- 从ods层导入dw当天最新数据
insert overwrite table