文章目录
Apache Sqoop
1、sqoop介绍
Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。由来自于Apache软件基金会提供。
Sqoop工作机制是将导入或导出命令翻译成MapReduce程序来实现。在翻译出的MapReduce中主要对InputFormat和OutputFormat进行定制。
Hadoop生态系统包括:HDFS、HIive、Hbase等
RDBMS体系包括:MySQL、Oracle、DB2等
Sqoop可以理解为:“SQL到Hadoop和Hadoop到SQL”
Sqoop安装
安装Sqoop的前提是已经具备Java和Hadoop的环境
上传Sqoop压缩包并解压缩
tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C ../servers/
配置环境变量
vi /etc/profile.d/sqoop.sh
添加以下内容
export SQOOP_HOME=/export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
export PATH=$PATH:$SQOOP_HOME/bin
配置文件修改
sqoop-env.sh
cd $SQOOP_HOME/conf
mv sqoop-env-template.sh sqoop-env.sh
vi sqoop-env.sh
添加以下配置
export HADOOP_COMMON_HOME= /export/servers/hadoop-2.7.5
export HADOOP_MAPRED_HOME= /export/servers/hadoop-2.7.5
export HIVE_HOME= /export/servers/hive
添加MySql的JDBC驱动包
直接拷贝/${HIVE_HOME}/lib目录下的驱动包
cp /hive/lib/mysql-connector-java-5.1.32.jar $SQOOP_HOME/lib/
或进入/${SQOOP_HOME}/lib通过rz命令上传
验证启动
bin/sqoop list-databases \
--connect jdbc:mysql://localhost:3306/ \
--username root --password hadoop
本命令会列出所有mysql的数据库。
到这里,整个Sqoop安装工作完成。