一、认识Sqoop:
1、Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle…)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。一般情况下,是将数据分析的结果导出到关系型数据库中,供其他部门使用。Sqoop成立于2009年,刚开始是作为hadoop的一个模块而存在的,不过后来为了更好的进行部署使用,成为apache基金会组织的一个项目。Sqoop专门为大数据而设计,可以通过分割数据集来启动多个mapreduce程序来处理每个数据块
二、安装详情:
1、下载:
下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/
2、 解压
tar -zvf sqoop-1.4.7.bin_hadoop-2.6.0.tar.gz
3 、copy mysql的驱动类到lib文件夹中
cp mysql-connector-java-5.1.38-bin.jar /opt/module/sqoop-1.4.5-cdh5.3.6/lib/
4、copy hadoop的hadoop-common-2.5.0-cdh5.3.6.jar hadoop-hdfs-2.5.0-cdh5.3.6.jar hadoop-mapreduce-client-core-2.5.0-cdh5.3.6.jar三个jar到lib文件夹中.
cd /opt/module/hadoop-2.5.0-cdh5.3.6/share/hadoop/
[root@hadoop101 common]# cp hadoop-common-2.5.0-cdh5.3.6.jar /opt/module/sqoop-1.4.5-cdh5.3.6/lib/
[root@hadoop101 hdfs]# cp hadoop-hdfs-2.5.0-cdh5.3.6.jar /opt/module/sqoop-1.4.5-cdh5.3.6/lib/
[root@hadoop101 mapreduce]# cp hadoop-mapreduce-client-core-2.5.0-cdh5.3.6.jar /opt/module/sqoop-1.4.5-cdh5.3.6/lib/
5、配置sqoop-env.sh文件内容
vi sqoop-env.sh
6、配置环境并生效
[root@hadoop101 conf]# vi /etc/profile
source /etc/profile
7、sqoop基本操作指令:
1、查看mysql所有数据库
sh sqoop list-databases --connect jdbc:mysql://192.168.1.10:3306/ -username root -password 1
2、查看指定数据库下的所有表
sh sqoop list-databases --connect jdbc:mysql://192.168.1.10:3306/hive_db -username root -password 1
3、关系型数据库==>hdfs
sh sqoop import -help(查看import的帮助指令)
(1)现在mysql数据库的test数据下建立一张tabx表,并插入测试数据
建表:create table tabx (id int,name varchar(20));
插入: insert into tabx(id,name) values(1,‘aaa’),(2,‘bbb’),(3,‘ccc’),(1,‘ddd’),(2,‘eee’),(3,‘fff’);
(2)进入到sqoop的bin目录下,执行导入语句
导入:
sh sqoop import --connect jdbc:mysql://192.168.1.101:3306/test --username root --password 1 --table tabx --target-dir ‘/sqoop/tabx’ --fields-terminated-by ‘|’ --split-by id;
此外,–split-by id表示的是tabx表在导入hdfs时分区的原则。本例是按id字段切分。
如果不想分区,则把–split-by id替换成-m 1即可。
sh sqoop import --connect jdbc:mysql://192.168.1.101:3306/test --username root --password 1 --table tabx --target-dir ‘/sqoop/tabx’ --fields-terminated-by ‘|’ -m 1;
4、hdfs==>关系型数据库
sh sqoop export --connect jdbc:mysql://192.168.1.101:3306/test --username root --password 1 --export-dir ‘/sqoop/tabx’ --table taby -m 1 --fields-terminated-by ‘|’ ;
注:sqoop只能导出数据,不能自动建表。所以在导出之前,要现在mysql数据库里建好对应的表