sqoop 是 Apache 下的顶级项目,可以很方便的将数据从关系型数据库导入到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统,也可以从 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导入数据到 关系型数据库
安装准备
版本说明
① sqoop 1.x 版本
以 Client 客户端的形式存在和运行,没有任务时是没有进程存在的,本篇博客使用的是 sqoop 1.4 版本
② sqoop 2.x 版本
以 B/S 服务器的形式去运行的,始终会有 Server 服务端进程在运行
环境准备
下载安装包
sqoop-1.4.6-cdh5.14.0.tar.gz 提取码: b2kv
配置安装
① 上传解压
cd /opt/server
tar -zxvf sqoop-1.4.6-cdh5.14.0.tar.gz
② 配置软连接
ln -s /opt/server/sqoop-1.4.6-cdh5.14.0 /opt/server/sqoop
③ 配置环境变量
vim /etc/profile
# 增加以下内容
export SQOOP_HOME=/opt/server/sqoop
export PATH=$SQOOP_HOME/bin:$PATH
④ 修改 Sqoop
配置信息
cd $SQOOP_HOME/conf
mv sqoop-env-template.sh sqoop-env.sh
vim sqoop-env.sh
# 修改以下内容(以实际情况配置)
export HADOOP_COMMON_HOME=/opt/server/hadoop-2.7.5
export HADOOP_MAPRED_HOME=/opt/server/hadoop-2.7.5
export HIVE_HOME=/opt/server/hive
⑤ 添加关系型数据库的驱动包
# 如果数据抽取方为关系型数据库,则将对应的驱动包放置在如下目录中
$SQOOP_HOME/lib
# 示例:我以后需要抽取 mysql 8.0 中的数据,那么我需要将如下 jar 包放入 $SQOOP_HOME/lib
mysql-connector-java-8.0.20.jar
启动测试
# 查看 sqoop 的版本
sqoop version
# 显示数据库的库列表
sqoop list-databases \
--connect jdbc:mysql://117.133.183.132:3306/ \
--username root --password admin@123