目录
4.2.1 Hive/HDFS到RDBMS(本质上都是HDFS到RDBMS)
1 Sqoop简介
Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。
核心的功能有两个:
导入:MySql、Oracle等导入数据到hadoop的HDFS、Hive、Hbase等数据存储系统
导出:从Hadoop的文件系统导出数据到关系型数据库mysql等
Sqoop本质上还是一个命令行工具,和HDFS、Hive相比,并没有什么高深的理论
sqoop工具:本质上就是迁移数据,将sqoop迁移命令转换为MR程序,不过并没有reduce task,因为不需要合并数据
hive工具:本质就是执行计算,依赖于HDFS存储数据,把HQL转换成MR程序
2 工作原理
将导入或导出命令转换成MAapReduce程序实现。
在转换出的MapReduce中主要是对InputFormat和OutputFormat进行定制
3 Sqoop安装
安装sqoop的前提是已经具备Java和Hadoop的环境。
3.1 下载解压
1. 清华镜像下载:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/
网盘链接:请点这里 提取码:cmya
2. 将安装包上传到虚拟机中,如/opt/software
3. 解压sqoop安装包到指定的目录
$ tar -zxf sqoop-1.4.6.bin_hadoop-2.0.4-alpha.tar.gz -C /opt/module/
3.2 修改配置文件
在sqoop中的conf目录下
1. 重命名配置文件
$ cp sqoop-env-template.sh sqoop-env.sh
$ cp sqoop-site-template.xml sqoop-site.xml
2. 修改配置文件
sqoop-env.sh
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
export HIVE_HOME=/opt/module/apache-hive-1.2.2-bin
#export HBASE_HOME=/opt/module/hbase
#export ZOOCFGDIR=/opt/module/zookeeper-3.4.10/conf
3.3 拷贝JDBC驱动
拷贝jdbc驱动到sqoop的lib目录下,如:
$ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
3.4 验证Sqoop
$bin/sqoop help
省略一些警告信息,出现下面内容
Available commands:
codegen Generate code to interact with database records
create-hive-table Import a table definition into Hive
eval Evaluate a SQL statement and display the results
export Export an HDFS directory to a database table
help List available commands
import Import a table from a database to HDFS
import-all-tables Import tables from a database to HDFS
import-mainframe Import datasets from a mainframe server to HDFS
job Work with saved jobs
list-databases List available databases on a server
list-tables List available tables in a database
merge Merge results of incremental imports
metastore Run a standalone Sqoop metastore
version Display version informationSee 'sqoop help COMMAND' for information on a specific command.
3.5 验证sqoop是否能够连接上数据库
$ bin/sqoop list-databases --connect jdbc:mysql://hadoop101:3306/ --username root --password 123456
省略警告信息,出现如下输出:
information_schema
company
metastore
mysql
performance_schema
test
4 Sqoop案例
4.1 导入数据
在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS、Hive、Hbase)中传输数据,使用import关键字
4.1.1 RDBMS到HDFS
1. 确定mysql服务开启正常
2. 在mysql新建一张表并插入一些数据
$ mysql -uroot -p123456
mysql> create database company;
mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));
mysql> insert into company.staff(name, sex) values('Thomas', 'Male');
mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale');
3. 导入数据
(1)全部导入(\ 表时未输入完)
$ bin/sqoop import \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password 123456 \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"
如果指定num-mappers>1,那么需要同时配置split-by,以便程序进行maptask切片
bin/sqoop import \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password 123456 \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 2 \
--split-by id \
--fields-terminated-by "\t"
(2)查询导入
$ bin/sqoop import \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password 123456 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'
提示:must contain '$CONDITIONS' in WHERE clause.
提示:--query选项,不能同时与--table选项使用
(3)导入指定列
$ bin/sqoop import \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password 123456 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns id,sex \
--table staff
提示:columns中如果涉及到多列,用逗号分隔,分隔时不要添加空格
4.1.3 RDBMS到Hive
$ bin/sqoop import \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password 123456 \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive
提示:该过程分为两步,第一步将数据导入到HDFS,第二步将导入到HDFS的数据迁移到Hive仓库
4.2 导出数据
在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,使用export关键字。
4.2.1 Hive/HDFS到RDBMS(本质上都是HDFS到RDBMS)
$ bin/sqoop export \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password 123456 \
--table staff \
--num-mappers 1 \
--export-dir /user/hive/warehouse/staff_hive \
--input-fields-terminated-by "\t"
提示:Mysql中如果表不存在,不会自动创建,所以需要提前创建好表
4.3 脚本打包
使用opt格式的文件打包sqoop命令,然后执行
$ touch job_HDFS2RDBMS.opt //创建一个.opt文件
$ vim opt/job_HDFS2RDBMS.opt //编写脚本
export
--connect jdbc:mysql://hadoop101:3306/company
--username root
--password 123456
--table staff
--num-mappers 1
--export-dir /user/hive/warehouse/staff_hive
--input-fields-terminated-by "\t"
$ bin/sqoop --options-file /opt/module/datas/job_HDFS2RDBMS.opt //执行脚本