Sqoop全量数据导入、增量数据导入、并发导入（Sqoop进阶）

最新推荐文章于 2024-04-15 10:19:04 发布

Data_IT_Farmer

最新推荐文章于 2024-04-15 10:19:04 发布

阅读量4.7k

点赞数 4

分类专栏： sqoop 文章标签： sqoop 增量导入全量导入

原文链接：https://blog.csdn.net/whdxjbw/article/details/81079746

版权

sqoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

一、sqoop概述：

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。

如果要用Sqoop，必须正确安装并配置Hadoop，因依赖于本地的hadoop环境启动MR程序；mysql、oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下

import

import是数据从RDBMS导入到Hadoop的工具

export

export是HDFS里的文件导出到RDBMS的工具，不能从hive、hbase导出数据，且HDFS文件只能是文本格式。如果要把hive表数据导出到RDBMS，可以先把hive表通过查询写入到一个临时表，临时用文本格式，然后再从该临时表目录里export数据。

Sqoop从HDFS目录里读取文件，所以启动的map task数依赖于-m参数、文件大小、文件数量、块大小等，可以参考这篇文章

参考：https://www.jianshu.com/p/be33f4b5c62e

二、Sqoop支持两种方式的全量数据导入和增量数据导入，同时可以指定数据是否以并发形式导入。

下面依次来看：

（1）全量数据导入
就像名字起的那样，全量数据导入就是一次性将所有需要导入的数据，从关系型数据库一次性地导入到Hadoop中（可以是HDFS、Hive等）。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令，具体如下：

# 全量数据导入
sqoop import \
--connect jdbc:mysql://192.168.xxx.xxx:3316/testdb \
--username root \
--password 123456 \
--query “select * from test_table where \$CONDITIONS” \
--target-dir /user/root/person_all \
--fields-terminated-by “,” \
--hive-drop-import-delims \
--null-string “\\N” \
--null-non-string “\\N” \
--split-by id \
-m 6 \

重要参数说明：

参数   说明
– query   SQL查询语句
– target-dir   HDFS目标目录（确保目录不存在，否则会报错，因为Sqoop在导入数据至HDFS时会自己在HDFS上创建目录）
–hive-drop-import- delims   删除数据中包含的Hive默认分隔符（^A, ^B, \n）
–null-string   string类型空值的替换符（Hive中Null用\n表示）
–null-non-string   非string类型空值的替换符
–split-by   数据切片字段（int类型，m>1时必须指定）
-m   Mapper任务数，默认为4

（2）增量数据导入
事实上，在生产环境中，系统可能会定期从与业务相关的关系型数据库向Hadoop导入数据，导入数仓后进行后续离线分析。故我们此时不可能再将所有数据重新导一遍，此时我们就需要增量数据导入这一模式了。

增量数据导入分两种，一是基于递增列的增量数据导入（Append方式）。二是基于时间列的增量数据导入（LastModified方式）。

1、Append方式

举个栗子，有一个订单表，里面每个订单有一个唯一标识自增列ID，在关系型数据库中以主键形式存在。之前已经将id在0~5201314之间的编号的订单导入到Hadoop中了（这里为HDFS），现在一段时间后我们需要将近期产生的新的订单数据导入Hadoop中（这里为HDFS），以供后续数仓进行分析。此时我们只需要指定–incremental 参数为append，–last-value参数为5201314即可。表示只从id大于5201314后开始导入。

# Append方式的全量数据导入
sqoop import \
--connect jdbc:mysql://192.168.xxx.xxx:3316/testdb \
--username root \
--password 123456 \
--query “select order_id, name from order_table where \$CONDITIONS” \
--target-dir /user/root/orders_all \
--split-by order_id \
-m 6 \
--incremental append \
--check-column order_id \
--last-value 5201314

重要参数说明：

参数   说明
–incremental append   基于递增列的增量导入（将递增列值大于阈值的所有数据增量导入Hadoop）
–check-column   递增列（int）
–last-value   阈值（int）

2、lastModify方式
此方式要求原有表中有time字段，它能指定一个时间戳，让Sqoop把该时间戳之后的数据导入至Hadoop（这里为HDFS）。因为后续订单可能状态会变化，变化后time字段时间戳也会变化，此时Sqoop依然会将相同状态更改后的订单导入HDFS，当然我们可以指定merge-key参数为orser_id，表示将后续新的记录与原有记录合并。
# 将时间列大于等于阈值的数据增量导入HDFS

sqoop import \
--connect jdbc:mysql://192.168.xxx.xxx:3316/testdb \
--username root \
--password transwarp \
--query “select order_id, name from order_table where \$CONDITIONS” \
--target-dir /user/root/order_all \
--split-by id \
-m 4 \
--incremental lastmodified \
--merge-key order_id \
--check-column time \
# remember this date !!!
--last-value “2014-11-09 21:00:00”

重要参数说明：

参数   说明
–incremental lastmodified   基于时间列的增量导入（将时间列大于等于阈值的所有数据增量导入Hadoop）
–check-column   时间列（int）
–last-value   阈值（int）
–merge-key   合并列（主键，合并键值相同的记录）
（3）并发导入参数如何设置？
我们知道通过 -m 参数能够设置导入数据的 map 任务数量，即指定了 -m 即表示导入方式为并发导入，这时我们必须同时指定 - -split-by 参数指定根据哪一列来实现哈希分片，从而将不同分片的数据分发到不同 map 任务上去跑，避免数据倾斜。

重要Tip：

生产环境中，为了防止主库被Sqoop抽崩，我们一般从备库中抽取数据。
一般RDBMS的导出速度控制在60~80MB/s，每个 map 任务的处理速度5~10MB/s 估算，即 -m 参数一般设置4~8，表示启动 4~8 个map 任务并发抽取。

（4）执行sqoop job

sqoop job --exec fdc_equipment_job

如果创建的job有问题，可以删除再重新创建：

sqoop job --delete fdc_equipment_job

参考：https://blog.csdn.net/whdxjbw/article/details/81079746

Data_IT_Farmer

关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
Sqoop全量数据导入、增量数据导入、并发导入（Sqoop进阶）

一、sqoop概述： Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 Sqoop项目开始于200...
复制链接

扫一扫