sqoop同步oracle数据至hive分区表问题

记录一次sqoop同步数据到分区表问题

先描述hive动态分区和静态分区

静态分区 SP(static partition)
  1、静态分区是在编译期间指定的指定分区名
  2、支持load和insert两种插入方式
    2.1load方式
      1)会将分区字段的值全部修改为指定的内容
      2)一般是确定该分区内容是一致的时候才会使用
    2.2insert方式
      1)必须先将数据放在一个没有设置分区的普通表中
      2)该方式可以在一个分区内存储一个范围的内容
      3)从普通表中选出的字段不能包含分区字段
  3、适用于分区数少,分区名可以明确的数据

动态分区 DP(dynamic partition)
  1、根据分区字段的实际值,动态进行分区
  2、是在sql执行的时候进行分区
  3、需要先将动态分区设置打开(set hive.exec.dynamic.partition.mode=nonstrict )
  4、只能用insert方式
  5、通过普通表选出的字段包含分区字段,分区字段放置在最后,多个分区字段按照分区顺序放置

问题描述

本次测试需将oracle中表的数据取业务时间同步到hive分区表中,最开始考虑的是在hive中建好分区表,后直接通过Sqoop导入数据到hive分区表中;在实际导入过程中会报一个Warn,数据导入不成功

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bChUyPMk-1666598984670)(在这里插入图片描述
image-20221024154426777.png)]

后改为不建表,由Sqoop直接建表的方式导入hive表的分区,可行。

导入脚本为

sqoop import  \
--connect jdbc:oracle:thin:@//XXX/XXX \
--username XXXX --password XXXX \
--query "select col1,col2
		from XXX.XXX
		where date = '2022-10-22' 
		and \$CONDITIONS" \
--delete-target-dir \
--target-dir /tmp/XXX \
--hive-import \
--hive-table XXX \
--hive-overwrite \
--hive-drop-import-delims \
--null-string '\\N' \
--null-non-string '\\N' \
--fields-terminated-by ',' \
--as-parquetfile \
--hive-partition-key ds \
--hive-partition-value 2022-10-22 \
-m 1

解决

导入脚本添加不添加–hive-overwirite参数时,仍然会报上图的错误;添加参数之后能正常导入。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值