Apache Sqoop 数据导出

最新推荐文章于 2023-07-30 07:12:18 发布

大数据流浪法师

最新推荐文章于 2023-07-30 07:12:18 发布

阅读量93

点赞数

分类专栏：大数据文章标签： Apache Sqoop 数据导出

本文链接：https://blog.csdn.net/weixin_42072754/article/details/103409919

版权

大数据专栏收录该内容

48 篇文章 4 订阅

订阅专栏

Sqoop数据导出

将数据从Hadoop生态体系导出到RDBMS数据库前，目标表必须存在于目标数据库中。

export有三种模式：
默认操作是从将文件中的数据使用INSERT语句插入到表中。
更新模式：Sqoop将生成UPDATE替换数据库中现有记录的语句。
调用模式：Sqoop将为每条记录创建一个存储过程调用。

以下是export命令语法：
$ sqoop export (generic-args) (export-args)

默认模式导出HDFS数据到mysql

默认情况下，sqoop export将每行输入记录转换成一条INSERT语句，添加到目标数据库表中。

如果数据库中的表具有约束条件（例如，其值必须唯一的主键列）并且已有数据存在，则必须注意避免插入违反这些约束条件的记录。

如果INSERT语句失败，导出过程将失败。

此模式主要用于将记录导出到可以接收这些结果的空表中。

通常用于全表数据导出。

导出时可以是将Hive表中的全部记录或者HDFS数据（可以是全部字段也可以部分字段）导出到Mysql目标表。

准备HDFS数据

在HDFS文件系统中“/emp/”目录的下创建一个文件emp_data.txt：

1201,gopal,manager,50000,TP
1202,manisha,preader,50000,TP
1203,kalil,php dev,30000,AC
1204,prasanth,php dev,30000,AC
1205,kranthi,admin,20000,TP
1206,satishp,grpdes,20000,GR

手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE employee ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT,
   dept VARCHAR(10));

执行导出命令

bin/sqoop export \
--connect jdbc:mysql://hadoop01:3306/userdb \
--username root \
--password 123456 \
--table employee \
--export-dir /emp/emp_data.txt

运行结果

19/12/05 20:32:37 INFO mapreduce.ExportJobBase: Transferred 2.9395 KB in 127.7805 seconds (23.556 bytes/sec)
19/12/05 20:32:37 INFO mapreduce.ExportJobBase: Exported 6 records.
[root@hadoop01 sqoop-1.4.7.bin__hadoop-2.6.0]#

更新导出（updateonly模式）

参数说明

update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔。
– updatemod，指定updateonly（默认模式），仅仅更新已存在的数据记录，不会插入新纪录。

准备HDFS数据

在HDFS “/updateonly_1/”目录的下创建一个文件updateonly_1.txt：

1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE updateonly ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT);

先执行全部导出操作

bin/sqoop export \
--connect jdbc:mysql://hadoop01:3306/userdb \
--username root \
--password 123456 \
--table updateonly \
--export-dir /updateonly_1/

查看此时mysql中的数据

可以发现是全量导出，全部的数据

mysql> select * from updateonly;
+------+---------+---------+--------+
| id   | name    | deg     | salary |
+------+---------+---------+--------+
| 1201 | gopal   | manager |  50000 |
| 1202 | manisha | preader |  50000 |
| 1203 | kalil   | php dev |  30000 |
+------+---------+---------+--------+
3 rows in set (0.00 sec)

新增一个文件

updateonly_2.txt。修改了前三条数据并且新增了一条记录。上传至/updateonly_2/目录下：

1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

执行更新导出

bin/sqoop export \
--connect jdbc:mysql://hadoop01:3306/userdb \
--username root --password 123456 \
--table updateonly \
--export-dir /updateonly_2/ \
--update-key id \
--update-mode updateonly

查看最终结果

虽然导出时候的日志显示导出4条记录：

19/12/05 21:09:47 INFO mapreduce.ExportJobBase: Transferred 2.6191 KB in 35.7575 seconds (75.0051 bytes/sec)
19/12/05 21:09:47 INFO mapreduce.ExportJobBase: Exported 4 records.

但最终只进行了更新操作

mysql> select * from updateonly;
+------+---------+---------+--------+
| id   | name    | deg     | salary |
+------+---------+---------+--------+
| 1201 | gopal   | manager |   1212 |
| 1202 | manisha | preader |   1313 |
| 1203 | kalil   | php dev |   1414 |
+------+---------+---------+--------+
3 rows in set (0.00 sec)

更新导出（allowinsert模式）

参数说明

update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔。
– updatemod，指定allowinsert，更新已存在的数据记录，同时插入新纪录。实质上是一个insert & update的操作。

准备HDFS数据

在HDFS “/allowinsert_1/”目录的下创建一个文件allowinsert_1.txt：

1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE allowinsert ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT);

先执行全部导出操作

bin/sqoop export \
--connect jdbc:mysql://hadoop01:3306/userdb \
--username root \
--password 123456 \
--table allowinsert \
--export-dir /allowinsert_1/

查看此时mysql中的数据

可以发现是全量导出，全部的数据

mysql> select * from allowinsert;
+------+---------+---------+--------+
| id   | name    | deg     | salary |
+------+---------+---------+--------+
| 1201 | gopal   | manager |  50000 |
| 1202 | manisha | preader |  50000 |
| 1203 | kalil   | php dev |  30000 |
+------+---------+---------+--------+
3 rows in set (1.53 sec)

新增一个文件

allowinsert_2.txt。修改了前三条数据并且新增了一条记录。上传至/ allowinsert_2/目录下：

1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

执行更新导出

bin/sqoop export \
--connect jdbc:mysql://hadoop01:3306/userdb \
--username root --password 123456 \
--table allowinsert \
--export-dir /allowinsert_2/ \
--update-key id \
--update-mode allowinsert

查看最终结果

导出时候的日志显示导出4条记录：

19/12/05 21:39:25 INFO mapreduce.ExportJobBase: Transferred 2.6465 KB in 19.9782 seconds (135.6478 bytes/sec)
19/12/05 21:39:25 INFO mapreduce.ExportJobBase: Exported 4 records.

数据进行更新操作的同时也进行了新增的操作

mysql> select * from allowinsert;
+------+---------+---------+--------+
| id   | name    | deg     | salary |
+------+---------+---------+--------+
| 1201 | gopal   | manager |   1212 |
| 1202 | manisha | preader |   1313 |
| 1203 | kalil   | php dev |   1414 |
| 1204 | allen   | java    |   1515 |
+------+---------+---------+--------+
4 rows in set (0.00 sec)