Hive insert Overrite partition踩坑

25 篇文章 0 订阅
1 篇文章 0 订阅

Hive insert Overrite partition 动态分区踩坑实录

业务上要求有一张表要动态插入按照时间分区的数据,然后就用了如下语法(已脱敏):

先说结论:动态分区按照查询的最后一个字段来,我这里没有按照这个规范写,就报了很多奇奇怪怪的错误。

在Application上找到spark的执行日志时,发现卡在最后一个stage的repartitionAndSortWithPartitionsmapPartitions 阶段,而且表现为所有executor上的task数都为0,但是都有shuffle read的记录数,然后Task的执行里面会一直显示Running状态,也不报错,但是跑了15个小时,这11个task的进度条还是 0/11 ,只能kill掉。确认dynamic开启了非严格模式,给的分区数也足够。

set hive.exec.dynamic.partition = true;
set hive.exec.dynamic.partition.mode = nonstrict;
set hive.exec.max.dynamic.partitions = 10000;
set hive.exec.max.dynamic.partitions.pernode = 10000;
drop table if exists db1.table1;
create table db1.table1
(
    id string,
    code string,
    pred_sell double
)
partitioned by (insert_date string)
STORED AS PARQUET
;

insert into table db1.table1
partition (insert_date)
select
a.id,
a.code,
a.insert_date,
b.sell as pred_sell
from db1.table1 a join db1.table2 b
on a.id=b.id and a.code=b.code and cast(date_format(a.insert_date,'yyyyMMdd') as string) >= '${yesterday_time}';

然后找回代码中,发现我最后一个字段select的是b.sell as pred_sell,而分区中填的是insert_date,这就导致我的任务一直卡在repartition那里。

之后事情就多了,任务跑的时间过长报了RPC channel close问题,然后又是spark Return Code3问题…还是怪自己不够细心。

综上,总结一下,Hive建表时指定的分区字段会自动跟在表字段的最下方,然后如果使用insert into partition select * from table 方式插入的话,要记得字段位置对应,特别是分区字段放到普通字段下面,与创建表的顺序对应才行。

drop table if exists db1.table1;
create table db1.table1
(
    id string,
    code string,
    pred_sell double
)
partitioned by (insert_date string)
STORED AS PARQUET
;

insert into table db1.table1
partition (insert_date)
select
a.id,
a.code,
b.sell as pred_sell,
a.insert_date,
from db1.table1 a join db1.table2 b
on a.id=b.id and a.code=b.code and cast(date_format(a.insert_date,'yyyyMMdd') as string) >= '${yesterday_time}';

就改了一下字段的顺序,它就跑通了。

以此记录一下这个莫名其妙的问题。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值