尚硅谷Sqoop

小新学java

已于 2023-06-10 21:53:45 修改

阅读量119

点赞数

分类专栏： hadoop生态圈文章标签： sqoop

于 2023-06-10 21:47:06 首次发布

本文链接：https://blog.csdn.net/m0_63961750/article/details/131146767

版权

hadoop生态圈专栏收录该内容

5 篇文章 2 订阅

订阅专栏

一、Sqoop 简介

二、Sqoop 架构

2.1 Sqoop1 架构 (1.4.6，1.4.7)

2.2 Sqoop2 架构 (1.99.6，1.99.7)

一、Sqoop 简介

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

基本思想

插拔式Connector架构， Connector是与特定数据源相关的组件，主要负责(从特定数据源中)抽取和加载数据。

用户可选择Sqoop自带的Connector，或者数据库提供的native Connector。

Sqoop： MapReduce方式并行导入导出，性能高；类型自动转换(用户也可自定义类型转换)；自动传播元信息。

二、Sqoop 架构

2.1 Sqoop1 架构 (1.4.6，1.4.7)

客户端工具，不需要启动任何服务，调起MapReuce作业(实际只有Map操作), 使用方便，只有命令行交互方式。

缺陷：
(1) 仅支持JDBC的Connector
(2) 要求依赖软件必须安装在客户端上(包括Mysql/Hadoop/Oracle客户端， JDBC驱动，数据库厂商提供的Connector等)。
(3)安全性差：需要用户提供明文密码