Hive增量更新方案

本文介绍了两种Hive增量更新方案。方案一利用时间分区和timestamp列,通过合并增量表与原始表实现更新。方案二涉及Hive的ACID特性,开启后支持对表的delete和update操作,需满足ORC存储、分桶等条件,并配置相关参数。
摘要由CSDN通过智能技术生成

Hive增量更新方案
方案一(总结出来业界可行方案):
1、Hive原始表提前规划好以时间分区,初始化装载源库记录为base_table(最新数据)
2、每个相关表都会有一个timestamp列,对每一行操作做了修改,都会重置这列timestamp为当前时间戳;
3、新增数据通过sqoop(支持当天抽取)或者导出当天文件两种形式,抽取或导入到hive表,记录为新增表incremental_table
4、(1)如果incremental_table表中数据不涉及到更新,直接导入到以时间分区的base_table表中   (2)如果某几个分区涉及到更新操作,将这段时间分区内的base_table和incremental_table数据进行合并,有相同主键的取timestamp最新的那条,合并后新数据重新写回base_table分区中;
(3)如果涉及到删除数据操作,分软删除(打标签)和硬删除;如果是软删除,记录数据也会存在incremental_table,只是在合并base_table和incremental_table表中过滤掉此记录写回base_table即可。如果是硬删除,需将删除的数据行放入额外审计表中audit_table,与base_table和incremental_table一起进行合并过滤处理后,再写回base_table。

采用Oozie、NiFi或者Shell脚本等方式,将上述流程统一做成一个工作流,方便调度。 

方案二(如有业务诉求,需要对Hive表具体某条记录进行delete或update操作):

  • 0
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
增量抽取是指根据某个字段的变化情况,只抽取新的或更新的数据。在Hive中,可以使用窗口函数和分区表来实现增量抽取。 根据提供的引用内容,以下是一个示例的Hive增量抽取SQL语句: ```sql SELECT id, name, age, createTime FROM ( SELECT id, name, age, createTime, row_number() OVER (PARTITION BY id ORDER BY createTime DESC) AS rn FROM mytable ) t WHERE rn = 1; ``` 这个SQL语句使用`row_number()`窗口函数对`createTime`字段进行降序排序,并给每个分组的记录分配一个行号。然后,在外层查询中,我们只选择行号为1的记录,即每个`id`分组中最新的记录。 请注意,这个示例仅适用于具有唯一`id`的数据集。如果`id`不是唯一的,你可能需要在`row_number()`函数的`PARTITION BY`子句中添加更多的字段来确保每个分组只有一个最新的记录。另外,根据你的数据表结构,你可能需要调整字段的名称和数据类型。 希望这个示例能够帮助到你!<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [hive增量抽取方案](https://blog.csdn.net/weixin_42525798/article/details/113606510)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值