拉链表

拉链表

1.什么是拉链表

  • 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史(某个粒度的一个状态)。记录一个事物从开始,一直到当前状态的所有变化的信息

2.拉链表的使用场景

  • 有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。
  • 表中的部分字段会被update更新操作,如用户联系方式,产品的描述信息,订单的状态等等。
  • 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态。
  • 表中的记录变化的比例和频率不是很大,比如,总共有10亿的用户,每天新增和发生变化的有200万左右,变化的比例占的很小

3.拉链表的具体应用

在hive中创建一张表作为原始数据
create table if not exists data1(
  user_id int,
  register_date string,
  user_tel string,
  end_date string
) row format delimited fields delimited by '\t';

用load方式加载一些数据进去

data1数据

用sqoop从数据库中抽取改动过的数据和新增的数据
在此我直接创建data2并加载更新的数据
create table if not exists data2(
  user_id int,
  register_date string,
  user_tel string,
  end_date string
) row format delimited fields delimited by '\t';

用load方式加载一些更新和新增的数据
此时的data2表的数据源相当于用sqoop从mysql抽过来的

data2数据

  • 为了能让用户的信息有所保留,所以要实现的结果为:当用户修改了数据,以前的数据不能删
insert
  overwrite table data1
SELECT
  c.user_id,
  c.register_date,
  c.user_tel,
  CASE
    WHEN c.register_date < CURRENT_DATE()
    AND COUNT(*) over(PARTITION BY c.user_id) > 1 THEN CURRENT_DATE()
    ELSE c.end_date
  END
FROM
  (
    SELECT
      *
      FROM
      data1
    UNION
    SELECT
      *
    FROM
      data2
  ) c;


data1更新后的数据

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值