sqoop import 导入到hive后数据量变多的问题

最新推荐文章于 2024-01-22 07:54:48 发布

lee_moonj

最新推荐文章于 2024-01-22 07:54:48 发布

阅读量3.1k

点赞数

分类专栏： hive postgresql mysql

本文链接：https://blog.csdn.net/IKnowNothinglee/article/details/102937775

版权

在使用sqoop import从postgresql导入数据到hive时，遇到数据行数增加的情况。原本3698条数据，导入后变为3938条。问题在于参数的设置，调整为或指定合适的split-by字段可以解决问题。切分字段不连续或非有序导致数据重复是数据增多的原因。解决方案包括不切分或选择有序的split-by字段。

摘要由CSDN通过智能技术生成

使用sqoop import 命令从postgresql导入数据到hive中，发现数据行数变多了，但是任务没有跑错，非常奇怪。

导入语句为：

sqoop import 
--connect jdbc:postgresql://*.*.*.*:5432/database_name 
--username name111 
--password password111 
--table table111 
--hive-import 
--hive-database database111 
--hive-table hive_table111 
--hive-overwrite 
--delete-target-dir 
--hive-drop-import-delims  
--null-string ''
 --null-non-string '' 
 -m5

导入前pgsql数据量为3698条，但是导入后再hive中的数据量为3938，数据竟然变多了。最后发现将参数-m5，改为-m1即可解决问题。

为什么呢？

我们先来了解一下参数-m的含义以及sqoop导入的原理。

首先用户输入一个 Sqoop import 命令，Sqoop 会从关系型数据库中获取元数据信息，比如要操作数据库表的 schema是什么样子，这个表有哪些字段，这些字段都是什么数据类型等。它获取这些信息之后，会将输入命令转化为基于 Map 的 MapReduce作业，这样 MapReduce作业中有很多 Map 任务，每个 Map 任务从数据库中读取一片数据，这样多个 Map 任务实现并发的拷贝，把整个数据快速的拷贝到 HDFS 上。

而决

最低0.47元/天解锁文章

lee_moonj

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
sqoop import 导入到hive后数据量变多的问题

使用sqoop import 命令从postgresql导入数据到hive中，发现数据行数变多了，但是任务没有跑错，非常奇怪。导入语句为：sqoop import --connect jdbc:postgresql://*.*.*.*:5432/database_name --username name111 --password password111 --table table11...
复制链接

扫一扫

专栏目录