exists hive中如何使用_hive 使用优化实践

本文介绍了在Hive中使用exists优化数据同步过程,避免not in导致的小文件问题和数据倾斜。通过调整SQL,如使用DISTRIBUTE BY rand(),实现了更均衡的reduce任务分配,提高了数据同步效率。
摘要由CSDN通过智能技术生成

背景

在工作中需要同步pg数据库下的某张表到hive,使用的工具是开源的sqoop,业务表的数据表包含最近一年的数据,数据表的行数为366,830,898,数据表的字段个数为71个,数据表在pg中的空间大小为110G;pg中表没有唯一主键,同一个id的数据可能会出现多次,且都是业务允许的正常场景。

分析

全量同步数据

每次将pg的整表全量同步到hive分区表中,这种做法同步的速度很慢,这张表后面会有依赖,会影响后续数据的产出,且会有数据表block的风险,所以不适合用全量的方式同步

增量同步数据

查看每天有改动的数据的记录数,最多为200万,数据的体积约为700M。尝试单独用sqoop同步一天的数据速度很快,sqoop同步的时候要指定map划分的split字段,所以在pg中先在查询和分割字段上加上索引。增量的数据要和前一天的全量分区做合并,因为同一个id不管在增量的表中还是全量的表中都会出现多行记录,所以并不能使用A left join B where b.id is not null的方式去处理,也不能left semi join 去处理。

尝试

not in 方式

查询在hive原始表中同时不在增量表中的id对应的数据,接着和增量的最新数据做union all。

hive -e "

insert overwrite table target_table partition(dt = '$curr_date')

select

a.*

from a

where

a.dt = '$

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值