一、Sqoop 介绍
Sqoop 是一款用于 hadoop 和关系型数据库之间数据导入导出的工具。可以通过 Sqoop 把数据从数据库(比如 mysql,oracle)导入到 hdfs 中;也可以把数据从 hdfs 中导出到关系型数据库中。
通过将 Sqoop 的操作命令转化为 Hadoop 的 MapReduce 作业(通常只涉及到 Map 任务)进行导入导出,即 Sqoop 生成的 Job 主要是并发运行 MapTask 实现数据并行传输以提升数据传送速度和效率,如果使用 Shell 脚本来实现多线程数据传送则存在很大的难度。
Sqoop2(Sqoop1.99.7)需要在 Hadoop 安装目录下的配置文件中设置代理,属于重量级嵌入安装,文中使用 Sqoop1(Sqoop1.4.7)。
二、Sqoop 安装
安装前提:
已经具备了Java和hadoop的环境。
下载安装包:
http://mirror.bit.edu.cn/apache/sqoop/1.4.7/
解压:
sudo tar -zxv -f sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
sudo