前置准备
这里我们演示 MySQL 和 HDFS 之间的数据导入导出,需要预先安装 Hadoop集群。Hadoop 集群的安装教程如下:
一、Sqoop 简介
Apache Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出:
- 导入数据:从 MySQL、Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中;
- 导出数据:从分布式文件系统中导出数据到关系数据库中。
Sqoop名字的由来:SQL—Hadoop=Sq+oop=Sqoop
其原理是将执行命令转化成 MapReduce 作业来实现数据的迁移,如下图:
二、安装
2.1 下载并解压
下载所需版本的 Sqoop ,这里我下载的是最新版本的 Sqoop-1.4.7 。下载地址为:https://mirror.bit.edu.cn/apache/sqoop/1.4.7/
# 下载后进行解压
[xiaokang@hadoop ~]$ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/software/
2.2 配置环境变量
[xiaokang@hadoop ~]$ sudo vim /etc/profile
添加环境变量:
export SQOOP_HOME=/opt/software/