安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的环境。
1.上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中
2.解压 sqoop 安装包到指定目录,
tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt/install/
3.创建软连接
ln -s /opt/install/sqoop-1.4.6-cdh5.14.2/ /opt/install/sqoop
4.配置环境变量
vi /etc/profile
添加如下内容:
export SQOOP_HOME=/opt/install/sqoop
export PATH=$SQOOP_HOME/bin:$PATH
让配置文件生效。
source /etc/profile
** 修改配置文件**
Sqoop 的配置文件与大多数大数据框架类似,在 sqoop 根目录下的 conf 目录 中。
5.重命名配置文件
mv sqoop-env-template.sh sqoop-env.sh
6.修改配置文件 sqoop-env.sh
export HADOOP_COMMON_HOME=/opt/install/hadoop
export HADOOP_MAPRED_HOME=/opt/install/hadoop
export HIVE_HOME=/opt/install/hive
export ZOOKEEPER_HOME=/opt/install/zookeeper
export ZOOCFGDIR=/opt/install/zookeeper
export HBASE_HOME=/opt/install/hbase
7 拷贝 JDBC 驱动
拷贝 jdbc 驱动到 sqoop 的 lib 目录下
cp mysql-connector-java-5.1.27-bin.jar /opt/install/sqoop/lib/
cp java-json.jar /opt/install/sqoop/lib/
8 拷贝hive的lib目录中的一些jar包
cp /opt/install/hive/lib/hive-common-1.1.0-cdh5.14.2.jar /opt/install/sqoop-1.4.6-cdh5.14.2/lib
cp /opt/install/hive/lib/hive-shims* /opt/install/sqoop-1.4.6-cdh5.14.2/lib/
9 验证 Sqoop 我们可以通过某一个 command 来验证 sqoop 配置是否正确:
sqoop help
出现一些 Warning 警告(警告信息已省略),并伴随着帮助命令的输出:
Available commands:
codegen Generate code to interact with database records
create-hive-table Import a table definition into Hive
eval Evaluate a SQL statement and display the results
export Export an HDFS directory to a database table
help List available commands
import Import a table from a database to HDFS
import-all-tables Import tables from a database to HDFS
import-mainframe Import datasets from a mainframe server to HDFS
job Work with saved jobs
list-databases List available databases on a server
list-tables List available tables in a database
merge Merge results of incremental imports
metastore Run a standalone Sqoop metastore
version Display version information
See ‘sqoop help COMMAND’ for information on a specific command.
10 测试 Sqoop 是否能够成功连接数据库
sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password root
这里需要配置自己 mysql 数据库的连接信息。
出现如下输出:
information_schema
hive
mysql
performance_schema