Sqoop原理和架构

最新推荐文章于 2023-09-08 10:34:20 发布

一直打铁

最新推荐文章于 2023-09-08 10:34:20 发布

阅读量1.4k

点赞数

分类专栏： sqoop 文章标签： sqoop原理 sqoop架构

本文链接：https://blog.csdn.net/mamamalululu00000000/article/details/100013482

版权

sqoop 专栏收录该内容

7 篇文章

订阅专栏

Sqoop原理和架构

一、架构
二、原理
- 2.1 sqoop import 原理
- 2.1sqoop export 原理

一、架构

在这里插入图片描述
Sqoop 架构是非常简单的，它主要由三个部分组成：Sqoop client、HDFS/HBase/Hive、Database。

步骤流程：
（1）用户向 Sqoop 发起一个命令之后，这个命令会转换为一个基于 Map Task 的 MapReduce 作业。
（2）Map Task 会访问数据库的元数据信息，通过并行的 Map Task 将数据库的数据读取出来，然后导入 Hadoop 中。
（3）当然也可以将 Hadoop 中的数据，导入传统的关系型数据库中。
（4）它的核心思想就是通过基于 Map Task （只有 map）的 MapReduce 作业，实现数据的并发拷贝和传输，这样可以大大提高效率。

二、原理

将导入或导出命令翻译成MapReduce程序来实现的,MapReduce 中主要是对InputFormat和OutputFormat进行定制

2.1 sqoop import 原理

从传统数据库获取元数据信息(schema、table、field、field type)，把导入命令转换为只有Map的Mapreduce作业，在mapreduce中有很多map，每个map读一片数据，进而并行的完成数据的拷贝Sqoop 在 import 时，需要制定 split-by 参数。Sqoop 根据不同的 split-by参数值来进行切分, 然后将切分出来的区域分配到不同 map 中。每个map中再处理数据库中获取的一行一行的值，写入到 HDFS 中。同时split-by 根据不同的参数类型有不同的切分方法，如比较简单的int型，Sqoop会取最大和最小split-by字段值，然后根据传入的 num-mappers来确定划分几个区域。
在这里插入图片描述

2.1sqoop export 原理

获取导出表的schema、meta信息，和Hadoop中的字段match,建立映射关系，多个map only作业同时运行，完成hdfs中数据导出到关系型数据库中

Sqoop 数据导出流程，首先用户输入一个 Sqoop export 命令，它会获取关系型数据库的 schema，建立 Hadoop 字段与数据库表字段的映射关系。然后会将输入命令转化为基于 Map 的 MapReduce作业，这样 MapReduce作业中有很多 Map 任务，它们并行的从 HDFS 读取数据，并将整个数据拷贝到数据库中。
在这里插入图片描述