hive增量表和全量表_你真的了解全量表,增量表及拉链表吗?

本文介绍了Hive中的全量表和增量表处理方式,包括全量表的每日更新,增量表的变更记录,以及拉链表的历史状态维护。通过具体的SQL操作示例,展示了不同表类型在数据更新时的处理策略,如全量抽取、增量抽取和拉链表的构建,以适应不同数据量和业务需求。
摘要由CSDN通过智能技术生成

1

Mysql数据准备

第一天 9月10号数据

1,待支付,2020-09-10 12:20:11,2020-09-10 12:20:112,待支付,2020-09-10 14:20:11,2020-09-10 14:20:113,待支付,2020-09-10 16:20:11,2020-09-10 16:20:11

第二天 9月11号数据

1,待支付,2020-09-10 12:20:11,2020-09-10 12:20:112,已支付,2020-09-10 14:20:11,2020-09-11 14:21:113,已支付,2020-09-10 16:20:11,2020-09-11 16:21:114,待支付,2020-09-11 12:20:11,2020-09-11 12:20:115,待支付,2020-09-11 14:20:11,2020-09-11 14:20:11

对比mysql第一天和第二天的数据发现,第二天新增了订单id为4和5这两条数据,并且订单id为2和3的状态更新为了已支付

2

全量表

每天的所有的最新状态的数据。

1、全量表,有无变化,都要报

2、每次上报的数据都是所有的数据(变化的 + 没有变化的)

9月10号全量抽取到ods层

create table wedw_ods.order_info_20200910(order_id     string    COMMENT '订单id',order_status string    COMMENT '订单状态',create_time  timestamp COMMENT '创建时间',update_time  timestamp COMMENT '更新时间') COMMENT '订单表'row format delimited fields terminated by ',';

6bd730d57142fd902bd87bfb0db88b8b.png

create table wedw_dwd.order_info_df(order_id     string    COMMENT '订单id',order_status string    COMMENT '订单状态',create_time  timestamp COMMENT '创建时间',update_time  timestamp COMMENT '更新时间') COMMENT '订单表'partitioned by (date_id string)row format delimited fields terminated by ',';

# 把wedw_ods.order_info_20200910数据全量插到dwd层2020-09-10分区insert overwrite table wedw_dwd.order_info_df partition(date_id = '2020-09-10')selectorder_id,order_status,create_time,update_timefrom wedw_ods.order_info_20200910;

3b8a30ff1ec846f6f24c8ed80bb45412.png

9月11号全量抽取到ods层

create table wedw_ods.order_info_20200911(order_id     string    COMMENT '订单id',order_status stri

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值