Sqoop导入导出原理

最新推荐文章于 2023-06-27 01:25:41 发布

Jerry Hong

最新推荐文章于 2023-06-27 01:25:41 发布

阅读量2.1k

点赞数 1

分类专栏： ETL 大数据面试 Sqoop 文章标签： sqoop hadoop hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42570840/article/details/125984098

版权

大数据面试同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

一、Sqoop导入原理

从下面的的演示例子中，我们大致能得出一个结论，sqoop 工具是通过 MapReduce 进行导入作业的。总体来说，是把关系型数据库中的某张表的一行行记录都写入到 hdfs
在这里插入图片描述
上面这张图大致解释了 sqoop 在进行数据导入工作的大致流程，下面我们用文字来详细描述一下：

1、第一步，Sqoop 会通过 JDBC 来获取所需要的数据库元数据，例如，导入表的列名，数据类型等。

2、第二步，这些数据库的数据类型(varchar, number 等)会被映射成 Java 的数据类型(String, int 等)，根据这些信息，Sqoop 会生成一个与表名同名的类用来完成序列化工作，保存表中的每一行记录。

3、第三步，Sqoop 启动 MapReducer 作业

4、第四步，启动的作业在 input 的过程中，会通过 JDBC 读取数据表中的内容，这时，会使用 Sqoop 生成的类进行反序列化操作

5、第五步，最后将这些记录写到 HDFS 中，在写入到 HDFS 的过程中，同样会使用 Sqoop 生成的类进行反序列化

二、Sqoop 导出原理

Sqoop 进行数据导出，总体也是基于 mapreduce 任务。

在这里插入图片描述
详细文字描述：

1、第一步，sqoop 依然会通过 JDBC 访问关系型数据库，得到需要导出数据的元数据信息

2、第二步，根据获取到的元数据的信息，sqoop 生成一个 Java 类，用来进行数据的传输载体。该类必须实现序列化和反序列化

3、第三步，启动 mapreduce 作业

4、第四步，sqoop 利用生成的这个 java 类，并行的从 hdfs 中读取数据

5、第五步，每个 map 作业都会根据读取到的导出表的元数据信息和读取到的数据，生成一批 insert 语句，然后多个 map 作业会并行的向数据库 mysql 中插入数据

所以，数据是从 hdfs 中并行的进行读取，也是并行的进入写入，那并行的读取是依赖 hdfs 的性能，而并行的写入到 mysql 中，那就要依赖于 mysql 的写入性能。

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
Sqoop导入导出原理

Sqoop导入导出数据的原理
复制链接

扫一扫

专栏目录

Jerry Hong CSDN认证博客专家 CSDN认证企业博客

码龄6年

37: 原创

40万+: 周排名

224万+: 总排名

5万+: 访问

: 等级

426: 积分

20: 粉丝

47: 获赞

5: 评论

245: 收藏

私信

关注

热门文章

分类专栏

数据仓库 4篇
即席查询 2篇
Spark 14篇
Hive 2篇
任务调度 1篇
Sqoop 1篇
ETL 2篇
Impala 1篇
Linux基础 13篇
shell编程 1篇
大数据面试 10篇
Hadoop篇 3篇
BI工具 2篇

最新评论

Sqoop导入导出原理
达拉道·蒂夏: 拉取的时候mysql有字段变更了会被拉进来吗, 就是说sqoop任务启动时会加锁吗, 还是一批一批的拉取呢
Spark项目实战—各省份广告TOP3分析
m0_70233446: 大大，网盘显示访问人数过多了，需要联系你
Spark项目实战—电商用户行为分析
QIQ-: 博主，有源码吗，拜托拜托
Spark项目实战—电商用户行为分析
m0_51008540: 想问答主数据是从哪里下载的呢，可以给一个链接吗

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。