一:Sqoop的介绍
Sqoop : SQL to Hadoop的缩写
SQL: RDBMS
Hadoop: HDFS/Hive/HBase
Apache Sqoop
Apache Sqoop™ is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.
Apache Sqoop(TM)是一种工具,用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据 。
数据交换的一座桥梁
需求:
HDFS ===> RDBMS
RDBMS ==> HDFS
需要把 关系型数据库上面的数据 导入到hdfs上面去,才可以进行分布式操作
Sqoop其实就是一个mr jar包,底层实现就是mr
方向:
有一个出发点的:Hadoop
导入:RDBMS ==> Hadoop
导出:Hadoop ==> RDBMS
版本:
Sqoop1.x
Sqoop2.x
2的使用比1的使用麻烦的多 1在公司覆盖率达到百分之90 ,功能足够使用了
Sqoop1 的架构
为什么Sqoop1.x中不需要ReduceTask,仅仅MapTask就ok了
不需要计算,根本就不需要reduce