
近期临时需要把几个Hive表导出到Oracle中,参考了一些网上的文章,很有帮助,但是并不是很顺利,还是踩了些坑,所以再写多一篇,希望能帮助有需要的朋友更快完成任务。
首先要说下,因为没有长期或者大量的这种导出任务,所以我并没有花更多时间去做一些更自动化的脚本,Reference [1] 有个批量脚本,可以参考下。
- Oracle中建表
要把Hive的数据往Oracle导,需要Oracle中存在对应的表,但写建表脚本是个很没意思的事情,有些表动不动好几十个column,想想都头痛。Reference [2] 中和sqoop官方文档提到可以通过sqoop命令加个参数来实现自动建表:
-Doraoop.template.table=TemplateTableName如果不用这个参数,可以这样:
在HUE中执行如下命令来获取hive表的CREATE TABLE DDL:
show create table ${table_name}把上面命令的输出拷贝到文本编辑器中,替换数据类型为Oracle数据类型,删掉多余存储信息,就得到oracle建表脚本。再继续通过文本替换把数据类型和空格都去掉,得到不含空格的列名串,这个串在拼装sqoop export命令时要用到,即--columns参数,注意这个参数的值中间不能有空格。
2. Hive表文件路径(用于sqoop export的--export-dir参数)
默认情况下Hive的表的文件路径可以用下面命令先查到hive主目录:
hdfs dfs -ls /user/hive/warehouse再根据输出看要访问哪个数据库就继续ls到下一级目录,然后就可以看到各个表的路径了。比如我们的一个表文件路径是:
/user/hive/warehouse/stfadw.db/dwcl_cus_stat3. Hive分隔符
sqoop export命令中需要指定hive分隔符,我们在HUE中就可以查看。
HUE -> Data Browsers -> Metastore Tables,选择数据库和表后,在details tab可以看到Storage Information下有相关信息:

4. Oracle连接参数
这里有点要注意,使用Oracle SID或ServiceName的URL是有点不一样的,使用ServiceName的话使用:
jdbc:oracle:thin:@host:port/servicename如果使用ServiceName但在URL中没有用‘/’而用了':',会报错找不到SID。
使用SID的话不用‘/’而要用':'
jdbc:oracle:thin:@host:port:SID这个网上有些文章是写错了的,包括一些国外的文章,这个小细节也浪费了我一些时间。
5. Oracle的表名和列名都要大写
这个网上有些文章的例子用的小写,照做的话就会遇到报错。
表名如果小写的话会直接报table or view not exist,找不到表或视图。
列名如果小写的话会报task failed,具体错误得看job logs,

上面截图中有个URL,可以访问这个URL来查看job的具体日志。这个有个坑是如果平台配置了Kerberos认证,那要在浏览器中访问这个URL,需要进行一些繁琐的配置,这个后续有空再说。
6. 组装sqoop命令
主要是这几类
(1) oracle连接参数,(--connect, --username, --password)
(2) oracle表名,(--table)
(3) hive表文件路径,(--export-dir)
(4) 导出的字段,(--columns)
(5) 分隔符, (--inpux-xxx 系列)
我们的例子:
sqoop export --connect jdbc:oracle:thin:@172.11.21.31:1521/srv_sh_dw --username admin --password 123456 --table DW.CUS_STAT
--export-dir /user/hive/warehouse/stfadw.db/dwcl_cus_stat
--columns TRANSACTION_DATE,CUSTOMERNO,TYPE,METHOD,FUNDCODE,FUNDNAME,CURRENCY,AMOUNT,SOURCE_FLAG,INSERT_DATE
--input-fields-terminated-by '001' --input-lines-terminated-by 'n' --input-null-string "N" --input-null-non-string "N"7. Troubleshooting
(1) 如何查看job日志
主要看job full log. 在job history页面点击job链接,查看job详情,再点【logs】链接,进入job logs页面后,点击【here】链接查看full log.


(2) 导出完成后Hive表数据条数和Oracle中不一致
我们出现了Hive表的数据条数比Oracle表多了近20%,怎么回事?日志没有任何报错!
后来是按照Reference[3]的办法,在sqoop export命令中加了--direct参数后,数据就可以全部导入Oracle了。只是使用了--direct后,会报一个ORA-00942 table or view does not exist的错误,报完错误后导出任务会继续执行完。
References:
[1] https://kongdada.github.io/2017/12/01/Hive-Oracle/
[2] Can Sqoop export create a new table?
[3] https://blog.csdn.net/weixin_41668549/article/details/88604982
本文分享将Hive表数据导出到Oracle的经验。介绍了Oracle中建表、获取Hive表文件路径、查看Hive分隔符、设置Oracle连接参数等步骤,强调表名和列名要大写,还说明了组装sqoop命令的要点,最后给出查看job日志和解决数据条数不一致问题的方法。
3994

被折叠的 条评论
为什么被折叠?



