Soop从postgresql抽取数据到HDFS遇到的问题总结

A到C我选择D

已于 2023-08-05 16:04:27 修改

阅读量234

点赞数

分类专栏：搭建数仓ods的过程文章标签： postgresql 数据库 hdfs 大数据

于 2023-08-05 16:00:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73159610/article/details/132120098

版权

搭建数仓ods的过程专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、soop抽取数据前的准备

建议配置sqoop命令可以新建一个记事本，把需要的都整合进入，后期在进行归整，得到一份永久使用的实操文档

1. pg数据库表准备好，网络地址及端口号 （jdbc:postgresql://localhost:9999）

2. 服务器上安装配置好 jdk 和 hadoop

3. hdfs 的写入权限

4. pg驱动 jar 包准备（抽取oracle的数据也是需要同样的步骤，需要的是oracle的驱动jar）

（链接：https://pan.baidu.com/s/1Zga4iDcKTUYzzAsO7vMqfg 提取码：xxzz ）

jar 包放在sqoop 安装目录下的 lib 文件下

二、进行配置sqoop命令

（模拟的命令的模板，后面是一些命令的解释，包括导入hive的一些命令，就只实现了HDFS后期应该会实现导入到hive，有什么自己遇到的问题也会记录，分享）

带 sql 的命令

sqoop import \
--connect jdbc:postgresql://localhost:9999/数据库名\
--username 用户名\
--password 密码 \
--query 'sql查询语句' \
--split-by id \
--delete-target-dir \
--target-dir hdfs上传路径\
-m 1

不需要sql的命令

sqoop import \

    --connect jdbc:postgresql://localhost:9999/数据库名\

    --table 表名\

    --username 用户名\

    --password 密码\

    --target-dir 上传hdfs路径\

    --delete-target-dir \

    --num-mappers 1 \ （和 -m 一样）

    --fields-terminated-by ,

sqoop import

--connect "jdbc:postgresql://localhost:9999/数据库名" 指定要连接的 Pg数据库的URL

--username "postgres" 指定连接数据库所需的用户名

--password "123456" 指定连接数据库所需的密码

--table "table_name" 指定要

--fields-terminated-by '\t' 指定字段之间的分隔符为制表符

--lines-terminated-by '\n' 指定行终止符为换行符

--hive-drop-import-delims 在导入数据到Hive之前删除字段和行的分隔符

--incremental lastmodified 指定增量导入模式为根据最后修改的时间来增量导入数据

--merge-key id 指定用于合并数据的键列。

--check-column update_time 指定用于检查最后修改时间的列

--last-value ：指定上一次导入的最后修改时间

--m 1：指定要使用的并发MapReduce任务数

-- --schema "schema_name" 指定要导入数据的PostgreSQL模式

--null-string '\N' 指定空字符串在导入过程中的表示方式

--null-non-string '\N' 指定非字符串类型的空值在导入过程中的表示方式

注意：--table 和 --query是不能同时使用会给相应的提示

三、总结的一些问题

1. 前期没配置好可能会出现，hdfs写入失败，缺少驱动jar导致的无法正常运行命令

2. 就是关于pg字段类型的问题，因为某张表里有JSON格式，导致报错NullPotionterException

解决办法：通过query select 查询进行解决

--query 'SELECT 字段名::text FROM 表名 '

可能会报错，sql需要添加 where 条件后跟$CONDITIONS，来实现并行运行mr的功能，

3. 指定 -m 的个数当指定了-m参数且大于1时，需要同时指定--split-by参数来确保数据能够均匀地分配给不同的map任务进行处理（会有相应的提示）

总结：遇到的问题感觉挺多的，能想到的就这些了，因为一点点去做，实现了现在自己去回想的，后面打算实现增量全量导入的脚本配置，也许这篇文章没帮到你，但是面对棘手的问题你要相信自己一定可以的，等问题解决了技术上就是提升，加油！共勉！

A到C我选择D

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Soop从postgresql抽取数据到HDFS遇到的问题总结

1.前期没配置好可能会出现，hdfs写入失败缺少驱动jar导致的无法正常运行命令2. 就是关于pg字段类型的问题，因为某张表里有JSON格式，导致报错NullPotionterException解决办法：通过query select 查询进行解决--query 'SELECT 字段名::text FROM 表名 '可能会报错，sql需要添加where条件后跟，来实现并行运行mr的功能，
复制链接

扫一扫

专栏目录

A到C我选择D

CSDN认证博客专家 CSDN认证企业博客

码龄2年

2: 原创

103万+: 周排名

29万+: 总排名

470: 访问

: 等级

28: 积分

0: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

分类专栏

搭建数仓ods的过程 1篇

最新评论

Soop从postgresql抽取数据到HDFS遇到的问题总结
CSDN-Ada助手: 恭喜您开始博客创作！标题看起来很有实际应用的价值。在您的第一篇博客中，您总结了在将数据从postgresql抽取到HDFS过程中遇到的问题，这对于正在探索该过程的读者来说一定非常有帮助。接下来，我建议您可以在博客中进一步分享您是如何解决这些问题的，并提供一些实用的技巧和经验。这将使您的博客更具实用性，并帮助读者更好地理解和应用这些技术。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Soop从postgresql抽取数据到HDFS遇到的问题总结
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/616963944。

最新文章

pdmaas 本地连接 hive

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。