Sqoop基本使用

最新推荐文章于 2023-07-28 15:23:10 发布

下山化缘的DJ

最新推荐文章于 2023-07-28 15:23:10 发布

阅读量1.4k

点赞数

分类专栏： Hive 文章标签： hive sqoop big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39150361/article/details/121798502

版权

Hive 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

sqoop，它是一款开源的工具，主要用于实现关系型数据库与hadoop中hdfs之间的数据传递，其中用的最多的就是import，export了。

sqoop的安装配置也是非常简单的，这里就不说明了，本文主要针对如何使用sqoop实现oracle到hive(hdfs)的数据传递进行试验。

对于比较全的参数使用，可以到sqoop的官方文档http://sqoop.apache.org/docs/ 查看，以下是这次会用到的一些参数讲解：

-m N ：开启N个map来导入数据

–query ：从查询结果导入数据，注意，如果使用了该参数，那么必须指定–target-dir参数，并且查询条件中要包含$CONDITIONS

–target-dir ：指定数据在HDFS中的存放目录

–hive-table ：导入到hive的目标表名

–fetch-size ：一次从数据库中读取的记录数

–hive-drop-import-delims ：将数据导入到hive时，去掉其中的\n,\r,\001等特殊字符

–null-string ：对于string类型的字段，如果值为null，那么使用替代

–non-null-string ：对于非string类型的字段，如果值为null，那么使用替代

(通常我们使用的是

–null-string ‘\N’ \

–null-non-string ‘\N’ \

Hive中null默认是使用\N来表示的，如果想要替换成\N，那么还要多加一个\来转义)

–hive-partition-key ：hive表的分区字段

–hive-partition-value ：指定导入到hive表的分区对应的分区值

–hive-overwrite ：覆盖重写(这里注意，如果说没有使用到–hive-partition-key,hive-partition-value，那么–hive-overwrite的使用会将整个表的数据都覆盖，反之，则只是覆盖对应的某个分区的数据)

–verbose ：打印出详细的信息

================================================================================================

这里要注意，如果你要导入的数据里面包含\n,\r,\001之类的特殊字符，那么要使用–hive-drop-import-delims去掉这些特殊字符，否则，如果字符串中有换行，那么换行符之后的数据将会被识别为另一行，导致结果不正确。

另一个需要注意的地方，如果导入的数据有些字段值是null的，要加上–null-string，–null-non-string参数，否则，这些null值将会被错误的替换为’null’这个字符串。

下山化缘的DJ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Sqoop基本使用

sqoop，它是一款开源的工具，主要用于实现关系型数据库与hadoop中hdfs之间的数据传递，其中用的最多的就是import，export了。sqoop的安装配置也是非常简单的，这里就不说明了，本文主要针对如何使用sqoop实现oracle到hive(hdfs)的数据传递进行试验。对于比较全的参数使用，可以到sqoop的官方文档http://sqoop.apache.org/docs/ 查看，以下是这次会用到的一些参数讲解：-m N ：开启N个map来导入数据–query ：从查询结果导入数据，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。