sqoop mysql 性能_Sqoop最佳实践

最新推荐文章于 2022-12-01 17:19:57 发布

知路乎哈

最新推荐文章于 2022-12-01 17:19:57 发布

阅读量727

点赞数

文章标签： sqoop mysql 性能

本文链接：https://blog.csdn.net/weixin_35686386/article/details/113653133

版权

一、什么是Sqoop

Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。

如果要用Sqoop，必须正确安装并配置Hadoop，因依赖于本地的hadoop环境启动MR程序；mysql、oracle等数据库的JDBC驱动也要放到Sqoop的lib目录下。本文针对的是Sqoop1，不涉及到Sqoop2，两者有大区别，感兴趣的读者可以看下官网说明。

二、import

import是数据从RDBMS导入到Hadoop的工具

2.1、split

Sqoop并行化是启多个map task实现的，-m(或--num-mappers)参数指定map task数，默认是四个。并行度不是设置的越大越好，map task的启动和销毁都会消耗资源，而且过多的数据库连接对数据库本身也会造成压力。在并行操作里，首先要解决输入数据是以什么方式负债均衡到多个map的，即怎么保证每个map处理的数据量大致相同且数据不重复。--split-by指定了split column，在执行并行操作时(多个map task)，Sqoop需要知道以什么列split数据，其思想是：

1、先查出split column的最小值和最大值

2、然后根据map task数对(max-min)之间的数据进行均匀的范围切分

例如id作为split column,其最小值是0、最大值1000，如果设置4个map数，每个map task执行的查询语句类似于：SELECT * FROM sometable WHERE id >= lo AND id < hi，每个task里(lo,hi)的值分别是 (0, 250), (250, 500), (500, 750), and (750, 1001)。

be33f4b5c62e

Sqoop不能在多列字段上进行拆分，如果没有索引或者有组合键，必须显示设置splitting column；默认的主键作为split column，如果表里没有主键或者没有指定--split-by，就要设置num-mappers 1或者--autoreset-to-one-mapper，这样就只会启动一个task。

从上面的分析过程可以看到Sqoop以理想化方式根据split column将数据切分成多个范围

最低0.47元/天解锁文章

知路乎哈

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
sqoop mysql 性能_Sqoop最佳实践

一、什么是SqoopSqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。如...
复制链接

扫一扫