hive 将null值替换为0_Sqoop从Hive导出数据到Oracle

本文分享将Hive表数据导出到Oracle的经验。介绍了Oracle中建表、获取Hive表文件路径、查看Hive分隔符、设置Oracle连接参数等步骤,强调表名和列名要大写,还说明了组装sqoop命令的要点,最后给出查看job日志和解决数据条数不一致问题的方法。

v2-4c8998e921242fd1975a478428228545_1440w.jpg?source=172ae18b

近期临时需要把几个Hive表导出到Oracle中,参考了一些网上的文章,很有帮助,但是并不是很顺利,还是踩了些坑,所以再写多一篇,希望能帮助有需要的朋友更快完成任务。

首先要说下,因为没有长期或者大量的这种导出任务,所以我并没有花更多时间去做一些更自动化的脚本,Reference [1] 有个批量脚本,可以参考下。

  1. Oracle中建表

要把Hive的数据往Oracle导,需要Oracle中存在对应的表,但写建表脚本是个很没意思的事情,有些表动不动好几十个column,想想都头痛。Reference [2] 中和sqoop官方文档提到可以通过sqoop命令加个参数来实现自动建表:

-Doraoop.template.table=TemplateTableName

如果不用这个参数,可以这样:

在HUE中执行如下命令来获取hive表的CREATE TABLE DDL:

show create table ${table_name}

把上面命令的输出拷贝到文本编辑器中,替换数据类型为Oracle数据类型,删掉多余存储信息,就得到oracle建表脚本。再继续通过文本替换把数据类型和空格都去掉,得到不含空格的列名串,这个串在拼装sqoop export命令时要用到,即--columns参数,注意这个参数的值中间不能有空格。

2. Hive表文件路径(用于sqoop export的--export-dir参数)

默认情况下Hive的表的文件路径可以用下面命令先查到hive主目录:

hdfs dfs -ls /user/hive/warehouse

再根据输出看要访问哪个数据库就继续ls到下一级目录,然后就可以看到各个表的路径了。比如我们的一个表文件路径是:

/user/hive/warehouse/stfadw.db/dwcl_cus_stat

3. Hive分隔符

sqoop export命令中需要指定hive分隔符,我们在HUE中就可以查看。

HUE -> Data Browsers -> Metastore Tables,选择数据库和表后,在details tab可以看到Storage Information下有相关信息:

v2-8b79257b2a1150147d6d2a8f635411c8_b.jpg

4. Oracle连接参数

这里有点要注意,使用Oracle SID或ServiceName的URL是有点不一样的,使用ServiceName的话使用:

jdbc:oracle:thin:@host:port/servicename

如果使用ServiceName但在URL中没有用‘/’而用了':',会报错找不到SID。

使用SID的话不用‘/’而要用':'

jdbc:oracle:thin:@host:port:SID

这个网上有些文章是写错了的,包括一些国外的文章,这个小细节也浪费了我一些时间。

5. Oracle的表名和列名都要大写

这个网上有些文章的例子用的小写,照做的话就会遇到报错。

表名如果小写的话会直接报table or view not exist,找不到表或视图。

列名如果小写的话会报task failed,具体错误得看job logs,

v2-6388e7ba20caa22e1827caf5d02c905e_b.jpg

上面截图中有个URL,可以访问这个URL来查看job的具体日志。这个有个坑是如果平台配置了Kerberos认证,那要在浏览器中访问这个URL,需要进行一些繁琐的配置,这个后续有空再说。

6. 组装sqoop命令

主要是这几类

(1) oracle连接参数,(--connect, --username, --password)

(2) oracle表名,(--table)

(3) hive表文件路径,(--export-dir)

(4) 导出的字段,(--columns)

(5) 分隔符, (--inpux-xxx 系列)

我们的例子:

sqoop export --connect jdbc:oracle:thin:@172.11.21.31:1521/srv_sh_dw --username admin --password 123456 --table DW.CUS_STAT 
--export-dir /user/hive/warehouse/stfadw.db/dwcl_cus_stat 
--columns TRANSACTION_DATE,CUSTOMERNO,TYPE,METHOD,FUNDCODE,FUNDNAME,CURRENCY,AMOUNT,SOURCE_FLAG,INSERT_DATE 
--input-fields-terminated-by '001' --input-lines-terminated-by 'n' --input-null-string "N" --input-null-non-string "N"

7. Troubleshooting

(1) 如何查看job日志

主要看job full log. 在job history页面点击job链接,查看job详情,再点【logs】链接,进入job logs页面后,点击【here】链接查看full log.

v2-964bc243b61f74dcdc264d5b9d9b4176_b.jpg

v2-555c791c17b8be52f0a6ef37cb10c019_b.jpg

(2) 导出完成后Hive表数据条数和Oracle中不一致

我们出现了Hive表的数据条数比Oracle表多了近20%,怎么回事?日志没有任何报错!

后来是按照Reference[3]的办法,在sqoop export命令中加了--direct参数后,数据就可以全部导入Oracle了。只是使用了--direct后,会报一个ORA-00942 table or view does not exist的错误,报完错误后导出任务会继续执行完。

References:

[1] https://kongdada.github.io/2017/12/01/Hive-Oracle/

[2] Can Sqoop export create a new table?

[3] https://blog.csdn.net/weixin_41668549/article/details/88604982

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值