Hadoop数据传输工具sqoop

最新推荐文章于 2024-07-25 13:00:00 发布

斯维特哈特

最新推荐文章于 2024-07-25 13:00:00 发布

阅读量1.7k

点赞数

分类专栏： DataBase 文章标签： sqoop hadoop

DataBase 专栏收录该内容

23 篇文章 3 订阅

订阅专栏

简介

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

sqoop架构：

sqoop架构非常简单，其整合了Hive、Hbase和Oozie，通过map-reduce任务来传输数据，从而提供并发特性和容错。
sqoop的进一步发展可以参考：A New Generation of Data Transfer Tools for Hadoop: Sqoop 2

sqoop主要通过JDBC和关系数据库进行交互。理论上支持JDBC的database都可以使用sqoop和hdfs进行数据交互。
但是，只有一小部分经过sqoop官方测试，如下：

Database version   --direct support   connect string matches
HSQLDB   1.8.0+   No   jdbc:hsqldb:*//
MySQL   5.0+    Yes   jdbc:mysql://
Oracle   10.2.0+   No    jdbc:oracle:*//
PostgreSQL    8.3+   Yes    (import only)jdbc:postgresql://

较老的版本有可能也被支持，但未经过测试。
出于性能考虑，sqoop提供不同于JDBC的快速存取数据的机制，可以通过--direct使用。

Import

sqoop 数据导入具有以下特点：
1.支持文本文件(--as-textfile)、avro(--as-avrodatafile)、SequenceFiles(--as-sequencefile)。 RCFILE暂未支持，默认为文本
2.支持数据追加，通过--apend指定
3.支持table列选取（--column），支持数据选取（--where），和--table一起使用
4.支持数据选取，例如读入多表join后的数据'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) ‘，不可以和--table同时使用
5.支持map数定制(-m)
6.支持压缩(--compress)
7.支持将关系数据库中的数据导入到Hive(--hive-import)、HBase(--hbase-table)
数据导入Hive分三步：1）导入数据到HDFS 2）Hive建表 3）使用“LOAD DATA INPAHT”将数据LOAD到表中
数据导入HBase分二部：1）导入数据到HDFS 2）调用HBase put操作逐行将数据写入表