系统环境
Linux Ubuntu 16.04
jdk-7u75-linux-x64
mysql-5.7.24
sqoop-1.4.5-cdh5.4.5.tar.gz
mysql-connector-java-5.1.26-bin.jar
相关知识
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(Mysql、Oracle…)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了Import和Export这两个工具。
Sqoop import原理:
从传统数据库获取元数据信息(schema、table、field、field type),把导入功能转换为只有Map的MapReduce作业,在MapReduce中有很多Map,每个Map读一片数据,进而并行的完成数据的拷贝。
Sqoop export原理:
获取导出表的schema、meta信息,和Hadoop中的字段match;多个Map only作业同时运行,完成HDFS中数据导出到关系型数据库中。
任务内容
练习安装并配置Sqoop工具
任务步骤
1.首先在Linux本地,新建/data/sqoop1目录,用于存放所需文件。
mkdir -p /data/sqoop1
切换目录到/data/sqoop1下,使用wget命令,下载Sqoop所需安装包sqoop-1.4.5-cdh5.4.5.tar.gz以及mysql-connector-java-5.1.26-bin.jar。
cd /data/sqoop1
wget http://192.168.1.100:60000/allfiles/sqoop1/sqoop-1.4.5-cdh5.4.5.tar.gz
wget http://192.168.1.100:60000/allfiles/sqoop1/mysql-connector-java-5.1.26-bin.jar