sqoop增量导入hive_sqoop学习之import

本文介绍了如何使用sqoop从MySQL数据库增量导入数据到HDFS,并展示了不同模式如append和lastmodified的增量导入操作。此外,还讨论了sqoop的其他参数,如控制map任务数量、设置数据分隔符、快速模式以及使用job执行sqoop任务。
摘要由CSDN通过智能技术生成

首先我们已经安装好sqoop了,如果没有安装好参考文档《基于CentOS6.5-Hadoop2.7.3-hive-2.1.1安装sqoop1.4.7》

准备一些基本的认识

1、sqoop分为了sqoop1和sqoop2

2、sqoop2拆分server和client,类似于hiveserver2和beeline

3、sqoop早期是一些封装MR程序,以jar文件的形式,最后才演变成了框架

4、用于在hadoop和结构化数据库之间的高效传输批量数据的工具

下面我们开始做一些简单是使用,熟悉sqoop的使用方式

查看帮助信息:bin/sqoop help

6e7430b5918fc95f1909c192d2ed80bd.png

连接mysql

bin/sqoop list-databases --connect jdbc:mysql://mastercdh:3306/ --username root --password password

可以将数据库罗列出来,显示mysql数据库说明安装成功

6d0776a545407f0fc5dd4bdc2070c6b0.png

从关系型数据库中导入到HDFS(rdbms -> hdfs)

在mysql中创建一个库和表,方便我们练习

e8d71fb9b5710ed77bf5cddc7fdb9957.png

create table importhdfs(

id int primary key not null,

name varchar(20) not null

);

a0d1d7af7085321bf71105aadb1feb39.png

插入数据

insert into importhdfs values(1,'x1');

insert into importhdfs values(2,'x2');

insert into importhdfs values(3,'x3');

insert into importhdfs values(4,'x4');

insert into importhdfs values(5,'x5');

e3e5f0632db74de0409c6c30a956e1c5.png

使用命令导入数据(注意反斜杠,反斜杠后面不能有空格等)

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--table importhdfs

59b09ef2d785fec5cb5cec642a610000.png
b579e1d899e5e3bcbf33b23c5382f439.png

我们可以看reduce数量,sqoop不运行reduce

881b81b901181d59fdeacbc050cf0050.png

或者

6e83f6dfaee17e5bbfaed78172ba18cc.png

那么我们的数据在哪里?

1627c6999b7e55a3b5fc7fdab101bcad.png
158a12a97816e8b3c25414d37ffcb3be.png

搜索outputdir,就可以看到目录

hdfs://mastercdh:8020/user/root/importhdfs

9b1cc4e73b46e50c8455f934dd46a2de.png

我们就可以看到数据了

9ffa83a9b9c56139b18903be7f06add6.png

我们查看下数据

bin/hdfs dfs -text /user/root/importhdfs/part-m-00001

54c2dce8b8238c791d93773b75237057.png

我们也可以

控制map任务的个数 -m,--num-mappers

输出目录路径如果存在则删除--delete-target-dir

指定输出目录 --target-dir

运行下

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--delete-target-dir

--target-dir /sqoop_test

--table importhdfs

-m 1

087907667428e7eafe397c84b0998f68.png

我们查看数据

fd0348406b164cf90b99adc3132fa10f.png

bin/hdfs dfs -text /sqoop_test/part-m-00000

4075c220e70862b8693c8675969d4aec.png

这个数据分隔符是逗号

1,x1

2,x2

3,x3

4,x4

5,x5

我们可以指定数据输出分隔符(mysql默认是 ',')

分隔符参数fields-terminated-by

命令

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--delete-target-dir

--target-dir /sqoop_test

--table importhdfs

-m 1

--fields-terminated-by ""

04b4cc1c572fa5dd717e458be767381b.png

查看下数据

bin/hdfs dfs -text /sqoop_test/part-m-00000

d3eb47b714bf8acd015083addee3a117.png

其中有个日志信息

754019605b4375a7d57f38336ca6d227.png

指定快速模式 --direct

命令

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--direct

--delete-target-dir

--target-dir /sqoop_test

--table importhdfs

-m 1

--fields-terminated-by ""

59f75435066e0a3fc2bfdd0cddf586ec.png

bin/hdfs dfs -text /sqoop_test/part-m-00000

5c788a6020ba896ef36a0bbb30340e49.png

增量导入,从原有的数据上进行追加数据。比如mysql中表数据变化了,那么我重新执行sqoop,会把HDFS上的数据删除,这不符合我们的要求,我们只希望在原来的基础上添加数据。

首先了解三个参数

--check-column (col):指定要导入时检查的列,行的检测列,一般都是拿主键作为检测列。注意:char、varchar类型不可以使用

--incremental (mode):有两种模式:append 和 lastmodifuied

append :追加 lastmodifuied:时间戳

--last-value (value):指定上次导入检测列最后字段的最大值,也就是最后一个值

在append模式下

cee1a8a18ec03379a3fed8b259ee463d.png

增加几条数据

insert into importhdfs values(5,'x5');

insert into importhdfs values(6,'x6');

insert into importhdfs values(7,'x7');

insert into importhdfs values(8,'x8');

insert into importhdfs values(9,'x9');

86613cecd11368f2e52b8a1d692a79ae.png

注意:append和--delete-target-dir不能同时使用

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--direct

--target-dir /sqoop_test

--table importhdfs

-m 1

--fields-terminated-by ""

--check-column id

--incremental append

--last-value 5

a31d24f41ec8aadddc6d2c1979ced6e9.png

会有很多信息

7b15d675d1322e9517bf5dd30fc1e689.png
5766dedcd5fc38e2929dca9e0ea9cdeb.png

查看

0b40bcdcc7cabd41f0808351bedc4589.png

查看

bin/hdfs dfs -text /sqoop_test/part-m-00000

bin/hdfs dfs -text /sqoop_test/part-m-00001

6f8cc61cf89414e2b0ebeb90c6976c65.png

在lastmodifuied模式下

如果check-column是时间列time的话

--check-column time time列下面的数据,指定的就是你添加数据时最后的时间戳

--last-value"2019-12-19 19:04:07" 最后一行的时间戳

创建表

create table inc_tab(

id int,

name varchar(20),

last_mod timestamp default current_timestamp on update current_timestamp

);

添加数据

insert into inc_tab(id,name) values(1,'inc1');

insert into inc_tab(id,name) values(2,'inc2');

insert into inc_tab(id,name) values(3,'inc3');

insert into inc_tab(id,name) values(4,'inc4');

insert into inc_tab(id,name) values(5,'inc5');

06a737d000db5421a74e99981bd29d58.png

执行sqoop命令

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--table inc_tab

--target-dir /sqoop_test_inc

--fields-terminated-by ''

--num-mappers 1

7c2896fc71b27f54796654f5bd9a7428.png

查看数据

bin/hdfs dfs -text /sqoop_test_inc/part-m-00000

8157abc258f5d493796851523bea8e01.png

再添加几条数据

insert into inc_tab(id,name) values(6,'inc6');

insert into inc_tab(id,name) values(7,'inc7');

insert into inc_tab(id,name) values(8,'inc8');

0db031a1585c1eaf2ae0f1844cc65271.png

使用lastmodifuied模式进行增量导入指定增量数据是以--append(附加)还是 --merge-key(合并)模式进行添加

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--table inc_tab

--target-dir /sqoop_test_inc

--check-column last_mod

--fields-terminated-by ''

--incremental lastmodified

--last-value "2019-12-20 03:13:51"

--num-mappers 1

--merge-key id

5997918aa7d89ee203c3c0abb14b1c51.png

bin/hdfs dfs -text /sqoop_test_inc/part-r-00000

14b2de9a9d8fc73580f26ba449a14d34.png

这个地方是有reduce的

5d3d09dd853d1cf3ca74e20cb9b8af1c.png

这些命令我们可以使用job执行:sqoop job

bin/sqoop job --create job01 创建

bin/sqoop job --delete 删除任务

bin/sqoop job --exec 执行job

bin/sqoop job --show 显示job的详细信息

bin/sqoop job --list 显示可执行的job

示例语句:

sqoop job --create myjob -- import --connect jdbc:mysql://example.com/db

--table mytable

我们做个练习

先导入数据

insert into importhdfs values(11,'x11');

insert into importhdfs values(12,'x12');

insert into importhdfs values(13,'x13');

insert into importhdfs values(14,'x14');

insert into importhdfs values(15,'x15');

8690701bc3aeb018765968d89a1ab95b.png

执行命令

bin/sqoop job

--create job_importhdfs

--

import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--direct

--target-dir /sqoop_test

--table importhdfs

-m 1

--fields-terminated-by ""

--check-column id

--incremental append

--last-value 10

fda39b34f4e972b06be24642288efbd4.png

我们查看是否成功

88004aaaaf4f12c9bc56ef77b950892f.png

我们执行一下

bin/sqoop job --exec job_importhdfs

执行job的时候会确认密码,指定成mysql的登录密码

8cc98f0592ca81e0798fc14604cbc770.png

我们查看数据

f0b5392b2243db5cc87c29765feb631e.png

可以选择行列

导出某几列数据或者几行数据

bin/sqoop import

--connect jdbc:mysql://mastercdh:3306/sqoop_test

--username root

--password password

--direct

--delete-target-dir

--target-dir /where_test_importhdfs

--table importhdfs

-m 1

--fields-terminated-by ""

--where 'id<6'

2b65cf9bdc2ceb340d19d797d0928fa6.png

查看数据

bin/hdfs dfs -text /where_test_importhdfs/part-m-00000

5611770c602943aafabd194188992f01.png

导出某几列

--query使用要点:

不能使用--table

如果--query的sql语句带着where字句,

必须要加上标识符$CONDITIONS

cce76ead723cc19e29cb90dee3bc9ad6.png

查看数据

bin/hdfs dfs -text /where_test_importhdfs_sql/part-m-00000

c2ed8fa3e1b4961b26cddc40ad3bdbb8.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值