1、Sqoop的简介
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
sqoop1最新版本是1.4.7,sqoop2最新版本是1.99.7
sqoop2特征不完整,不建议用于生产部署。
1.1、sqoop依赖环境
组件 | 架包及版本 | 下载地址 |
---|---|---|
jdk | jdk-8u152-linux-x64.tar.gz | https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html |
hadoop | hadoop-2.7.7.tar.gz | https://archive.apache.org/dist/hadoop/common/ |
hbase | hbase-1.2.6-bin.tar.gz | http://mirror.bit.edu.cn/apache/hadoop/common/和http://archive.apache.org/dist/hbase/ |
hive | apache-hive-2.3.7-bin.tar.gz | http://mirror.bit.edu.cn/apache/hive/ |
zookeeper | zookeeper-3.4.14.tar.gz | https://mirrors.bfsu.edu.cn/apache/zookeeper/ |
sqoop | sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz | http://archive.apache.org/dist/sqoop/ |
MySQL | MySQL-5.6.27-1.linux_glibc2.5.x86_64.rpm-bundle.tar | https://downloads.mysql.com/archives/community/ |
以上基础的是hadoop,jdk,sqoop和mysql。
hbase和hive是基于hadoop的衍生物,储存文件就是hdfs。
zookeeper实行hadoop的高可用。
2、sqoop集群安装部署。
安装sqoop前集群的最低要求安装mysql,jdk和hadoop。
可以添加hbase,hive和zookeeper,进行试验。
参考hive,hbase,zookeeper和hadoop这些进行搭建。
2.1、sqoop解压
tar zxf /opt/software/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module
2.2、sqoop配置环境变量
/etc/profile中添加
# SQOOP_HOME
export SQOOP_HOME=/opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
export PATH=$PATH:$SQOOP_HOME/bin
2.3、sqoop配置文件
进入conf,cp sqoop-env-template.sh sqoop-env.sh
将hadoop,hive,hbase,zookeeper的绝对路径进行填写。
将MySQL的驱动包放到sqoop的lib下面
cp /opt/software/mysql-connector-java-5.1.47-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/