【sqoop】全量增量导出(新增/更新)

将数据从Hadoop生态体系导出到RDBMS数据库导出前,目标表必须存在于目标数据库中。

export有三种模式:

默认操作是从将文件中的数据使用INSERT语句插入到表中。

更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句。

调用模式:Sqoop将为每条记录创建一个存储过程调用。

以下是export命令语法:

$ sqoop export (generic-args) (export-args)

一、默认模式导出HDFS数据到mysql

默认情况下,sqoop export将每行输入记录转换成一条INSERT语句,添加到目标数据库表中。如果数据库中的表具有约束条件(例如,其值必须唯一的主键列)并且已有数据存在,则必须注意避免插入违反这些约束条件的记录。如果INSERT语句失败,导出过程将失败。此模式主要用于将记录导出到可以接收这些结果的空表中。通常用于全表数据导出。

导出时可以是将Hive表中的全部记录或者HDFS数据(可以是全部字段也可以部分字段)导出到Mysql目标

准备HDFS数据

 <--在HDFS文件系统中“/emp/”目录的下创建一个文件emp_data.txt:-->

1201,gopal,manager,50000,TP
1202,manisha,preader,50000,TP
1203,kalil,php dev,30000,AC
1204,prasanth,php dev,30000,AC
1205,kranthi,admin,20000,TP
1206,satishp,grpdes,20000,GR

手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE employee (
   id INT NOT NULL PRIMARY KEY,
   name VARCHAR(20),
   deg VARCHAR(20),
   salary INT,
   dept VARCHAR(10));

执行导出命令

bin/sqoop export \
--connect jdbc:mysql://node01:3306/userdb \
--username root \
--password 123456 \
--table employee \
--export-dir /emp/emp_data

相关配置参数

--input-fields-terminated-by '\t'  

指定文件中的分隔符

--columns

选择列并控制它们的排序。当导出数据文件和目标表字段列顺序完全一致的时候可以不写。否则以逗号为间隔选择和排列各个列。没有被包含在–columns后面列名或字段要么具备默认值,要么就允许插入空值。否则数据库会拒绝接受sqoop导出的数据,导致Sqoop作业失败

--export-dir 导出目录,在执行导出的时候,必须指定这个参数,同时需要具备--table或--call参数两者之一,--table是指的导出数据库当中对应的表,

--call是指的某个存储过程。

--input-null-string --input-null-non-string

如果没有指定第一个参数,对于字符串类型的列来说,“NULL”这个字符串就回被翻译成空值,如果没有使用第二个参数,无论是“NULL”字符串还是说空字符串也好,对于非字符串类型的字段来说,这两个类型的空串都会被翻译成空值。比如:

--input-null-string "\\N" --input-null-non-string "\\N"

二、更新导出updateonly模式

参数说明

-- update-key,更新标识,即根据某个字段进行更新,例如id,可以指定多个更新标识的字段,多个字段之间用逗号分隔。

-- updatemod,指定updateonly(默认模式),仅仅更新已存在的数据记录,不会插入新纪录。

准备HDFS数据

在HDFS “/updateonly_1/”目录的下创建一个文件updateonly_1.txt:

vi /emp/updateonly_1.txt

1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

hadoop fs -put /emp/updateonly_1.txt /updateonly_1/

手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE updateonly (
   id INT NOT NULL PRIMARY KEY,
   name VARCHAR(20),
   deg VARCHAR(20),
   salary INT);

先执行全部导出操作

bin/sqoop export \
--connect jdbc:mysql://node01:3306/userdb \
--username root \
--password 123456 \
--table updateonly \
--export-dir /updateonly_1/​​​​​​​

 查看此时mysql中的数据

可以发现是全量导出,全部的数据​​​​​​​

新增一个文件

updateonly_2.txt。修改了前三条数据并且新增了一条记录。上传至/updateonly_2/目录下:

1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

执行更新导出

bin/sqoop export \
--connect jdbc:mysql://node01:3306/userdb \
--username root --password 123456 \
--table updateonly \
--export-dir /updateonly_2/ \
--update-key id \
--update-mode updateonly

查看最终结果

虽然导出时候的日志显示导出4条记录:

但最终只进行了更新操作

三、更新导出allowinsert模式

参数说明

-- update-key,更新标识,即根据某个字段进行更新,例如id,可以指定多个更新标识的字段,多个字段之间用逗号分隔。

-- updatemod,指定allowinsert,更新已存在的数据记录,同时插入新纪录。实质上是一个insert & update的操作。

准备HDFS数据

在HDFS “/allowinsert_1/”目录的下创建一个文件allowinsert_1.txt:

vi allowinsert_1.txt

hdfs dfs -mkdir /allowinsert_1

hdfs dfs -put allowinsert_1.txt /allowinsert_1/allowinsert_1.txt

1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE allowinsert (
   id INT NOT NULL PRIMARY KEY,
   name VARCHAR(20),
   deg VARCHAR(20),
   salary INT);

先执行全部导出操作

bin/sqoop export \
--connect jdbc:mysql://node01:3306/userdb \
--username root \
--password 123456 \
--table allowinsert \
--export-dir /allowinsert_1/​​​​​​​

查看此时mysql中的数据

可以发现是全量导出,全部的数据​​​​​​​

新增一个文件

allowinsert_2.txt。修改了前三条数据并且新增了一条记录。上传至/ allowinsert_2/目录下:

1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

执行更新导出

bin/sqoop export \
--connect jdbc:mysql://node01:3306/userdb \
--username root --password 123456 \
--table allowinsert \
--export-dir /allowinsert_2/ \
--update-key id \
--update-mode allowinsert

查看最终结果

 导出时候的日志显示导出4条记录:

数据进行更新操作的同时也进行了新增的操作

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值