Sqoop简介
Apache Sqoop™是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop原理
将导入或导出命令翻译成Mapreduce程序来实现。
在翻译出的Mapreduce中主要是对InputFormat和OutputFormat进行定制。
注意:sqoop的底层mr是没有reducetask的,因为它不需要合并