Sqoop_Sqoop 并行度调整 -m 以及 --split-by

最新推荐文章于 2024-08-01 13:30:08 发布

高达一号

最新推荐文章于 2024-08-01 13:30:08 发布

阅读量5k

点赞数 1

分类专栏： Sqoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010003835/article/details/106604085

版权

Sqoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参考

Sqoop --m（--num-mappers）参数使用及优化

1. https://blog.csdn.net/duyuanhai/article/details/103066861

sqoop中多map的问题以及参数，优化介绍

2. https://blog.csdn.net/someInNeed/article/details/89357394

Sqoop 并行化原理

Sqoop并行化是启多个map task实现的，-m(或--num-mappers)参数指定map task数，默认是四个。

当指定为1时，可以不用设置split-by参数，不指定num-mappers时，默认为4，当不指定或者num-mappers大于1时，需要指定split-by参数。并行度不是设置的越大越好，map task的启动和销毁都会消耗资源，而且过多的数据库连接对数据库本身也会造成压力。在并行操作里，首先要解决输入数据是以什么方式负债均衡到多个map的，即怎么保证每个map处理的数据量大致相同且数据不重复。--split-by指定了split column，

在执行并行操作时(多个map task)，Sqoop需要知道以什么列split数据，其思想是：

1、先查出split column的最小值和最大值

2、然后根据map task数对(max-min)之间的数据进行均匀的范围切分

例如 id 作为split column,其最小值是0、最大值1000，如果设置4个map数，每个map task执行的查询语句类似于：

SELECT * FROM sometable WHERE id >= lo AND id < hi，

每个task里(lo,hi)的值分别是 (0, 250), (250, 500), (500, 750), and (750, 1001)。

注意

Sqoop不能在多列字段上进行拆分，如果没有索引或者有组合键，必须显示设置splitting column；默认的主键作为split column，如果表里没有主键或者没有指定--split-by，就要设置num-mappers 1或者--autoreset-to-one-mapper，这样就只会启动一个task。

从上面的分析过程可以看到Sqoop以理想化方式根据split column将数据切分成多个范围，如果split键的值不是均匀分布，每个任务分配的数据量可能相差很大、导致数据倾斜。

耗时快慢和源端RDBMS服务器，表大小，列数量、网络带宽有较大关系，生产环境中，为了防止主库被Sqoop抽崩，一般从备库中抽取数据。

一般RDBMS的导出速度控制在60~80MB/s，每个 map 任务的处理速度5~10MB/s 估算，即 -m 参数一般设置4~8，表示启动 4~8 个map 任务并发抽取。

–split-by对非数字类型的字段支持不好。一般用于主键及数字类型的字段

sqoop是分布式工作，被抽取数据库权限要开放给每个节点而不是某个节点

参考：

https://www.jianshu.com/p/be33f4b5c62e

https://www.cnblogs.com/zhnagqi-dream/p/11792612.html

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Sqoop_Sqoop 并行度调整 -m 以及 --split-by

参考https://blog.csdn.net/duyuanhai/article/details/103066861Sqoop 并行化原理 Sqoop并行化是启多个map task实现的，-m(或--num-mappers)参数指定map task数，默认是四个。当指定为1时，可以不用设置split-by参数，不指定num-mappers时，默认为4，当不指定或者num-mappers大于1时，需要指定split-by参数。并行度不是设置的越大越好，map task的启...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。