hive 将null值替换为0_Sqoop从Hive导出数据到Oracle

最新推荐文章于 2024-04-15 10:19:04 发布

最新推荐文章于 2024-04-15 10:19:04 发布 · 1.2k 阅读

文章标签：

#hive 将null值替换为0 #hive 建表 #hive 查看 job 日志 #hive建表 #idea2020怎么导出配置 #oracle insert 报错cpu

本文分享将Hive表数据导出到Oracle的经验。介绍了Oracle中建表、获取Hive表文件路径、查看Hive分隔符、设置Oracle连接参数等步骤，强调表名和列名要大写，还说明了组装sqoop命令的要点，最后给出查看job日志和解决数据条数不一致问题的方法。

v2-4c8998e921242fd1975a478428228545_1440w.jpg?source=172ae18b

近期临时需要把几个Hive表导出到Oracle中，参考了一些网上的文章，很有帮助，但是并不是很顺利，还是踩了些坑，所以再写多一篇，希望能帮助有需要的朋友更快完成任务。

首先要说下，因为没有长期或者大量的这种导出任务，所以我并没有花更多时间去做一些更自动化的脚本，Reference [1] 有个批量脚本，可以参考下。

Oracle中建表

要把Hive的数据往Oracle导，需要Oracle中存在对应的表，但写建表脚本是个很没意思的事情，有些表动不动好几十个column，想想都头痛。Reference [2] 中和sqoop官方文档提到可以通过sqoop命令加个参数来实现自动建表：

-Doraoop.template.table=TemplateTableName

如果不用这个参数，可以这样：

在HUE中执行如下命令来获取hive表的CREATE TABLE DDL：

show create table ${table_name}

把上面命令的输出拷贝到文本编辑器中，替换数据类型为Oracle数据类型，删掉多余存储信息，就得到oracle建表脚本。再继续通过文本替换把数据类型和空格都去掉，得到不含空格的列名串，这个串在拼装sqoop export命令时要用到，即--columns参数，注意这个参数的值中间不能有空格。

2. Hive表文件路径（用于sqoop export的--export-dir参数）

默认情况下Hive的表的文件路径可以用下面命令先查到hive主目录：

hdfs dfs -ls /user/hive/warehouse

再根据输出看要访问哪个数据库就继续ls到下一级目录，然后就可以看到各个表的路径了。比如我们的一个表文件路径是：

/user/hive/warehouse/stfadw.db/dwcl_cus_stat

3. Hive分隔符

sqoop export命令中需要指定hive分隔符，我们在HUE中就可以查看。

HUE -> Data Browsers -> Metastore Tables，选择数据库和表后，在details tab可以看到Storage Information下有相关信息：

4. Oracle连接参数

这里有点要注意，使用Oracle SID或ServiceName的URL是有点不一样的，使用ServiceName的话使用：

jdbc:oracle:thin:@host:port/servicename

如果使用ServiceName但在URL中没有用‘/’而用了':'，会报错找不到SID。

使用SID的话不用‘/’而要用':'

jdbc:oracle:thin:@host:port:SID

这个网上有些文章是写错了的，包括一些国外的文章，这个小细节也浪费了我一些时间。

5. Oracle的表名和列名都要大写

这个网上有些文章的例子用的小写，照做的话就会遇到报错。

表名如果小写的话会直接报table or view not exist，找不到表或视图。

列名如果小写的话会报task failed，具体错误得看job logs,

上面截图中有个URL，可以访问这个URL来查看job的具体日志。这个有个坑是如果平台配置了Kerberos认证，那要在浏览器中访问这个URL，需要进行一些繁琐的配置，这个后续有空再说。

6. 组装sqoop命令

主要是这几类

(1) oracle连接参数，(--connect, --username, --password)

(2) oracle表名，(--table)

(3) hive表文件路径，(--export-dir)

(4) 导出的字段，(--columns)

(5) 分隔符, (--inpux-xxx 系列)

我们的例子：

sqoop export --connect jdbc:oracle:thin:@172.11.21.31:1521/srv_sh_dw --username admin --password 123456 --table DW.CUS_STAT 
--export-dir /user/hive/warehouse/stfadw.db/dwcl_cus_stat 
--columns TRANSACTION_DATE,CUSTOMERNO,TYPE,METHOD,FUNDCODE,FUNDNAME,CURRENCY,AMOUNT,SOURCE_FLAG,INSERT_DATE 
--input-fields-terminated-by '001' --input-lines-terminated-by 'n' --input-null-string "N" --input-null-non-string "N"

7. Troubleshooting

(1) 如何查看job日志

主要看job full log. 在job history页面点击job链接，查看job详情，再点【logs】链接，进入job logs页面后，点击【here】链接查看full log.

(2) 导出完成后Hive表数据条数和Oracle中不一致

我们出现了Hive表的数据条数比Oracle表多了近20%，怎么回事？日志没有任何报错！

后来是按照Reference[3]的办法，在sqoop export命令中加了--direct参数后，数据就可以全部导入Oracle了。只是使用了--direct后，会报一个ORA-00942 table or view does not exist的错误，报完错误后导出任务会继续执行完。

References:

[1] https://kongdada.github.io/2017/12/01/Hive-Oracle/

[2] Can Sqoop export create a new table?

[3] https://blog.csdn.net/weixin_41668549/article/details/88604982