聊聊Hadoop DistCp的数据切分处理方式

最新推荐文章于 2022-08-07 11:28:33 发布

Android路上的人

最新推荐文章于 2022-08-07 11:28:33 发布

阅读量4.4k

点赞数 4

分类专栏： Hadoop 文章标签： DistCp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Androidlushangderen/article/details/108298821

版权

文章目录

前言
基于文件数/文件Size的数据切分方式

前言

在如今数据使用场景越来越多的环境下，如何对数据做到更准确，更高效的处理无疑是我们开发者所重点关注以及所期望达成的目标。说到数据的处理，在当今成熟的分布式系统下，我们已经能够达到比较高效的数据并行处理能力了。但是这并不意味着说对此我们没有别的改善空间的余地了。在数据的并行处理过程中，不是所有情况我们都能保证每个并行处理任务都能按照预期顺利执行，中间就可能出现长尾任务现象。这里笔者想抛出的一个关键词：数据切分。在数据切分不均匀的情况下，是极有可能出现任务执行时间不均等的现象，从而影响到整个Job的完成耗时。本文笔者以Hadoop DistCp任务的内部数据处理过程为例，来聊聊DistCp内部的数据切分方式。

基于文件数/文件Size的数据切分方式

在分布式计算过程中，我们有专门的名词来定义不同task处理数据量的差异，叫做data skew(数据倾斜)。在DistCp任务中，对应的情况就是其内部map task需要处理(拷贝)的数据量差异比较大。

在笔者内部测试的一个例子中，笔者打算拷贝300w量级的文件目录，最后发现将近200w的目录分布到了一个map task内，然后造成DistCp的结束不了的情况。后来经过进一步分析，才知道原来是DistCp默认按照数据拷贝大小来均分输入数据到各个map内。这种策略在拥有大规模目录的情况下不见得是适用的，因为目录是没有size的，可理解为其size为0。这样就可能出现目录扎堆聚集的情况。

在上面这种情况下，一种更为妥善的办法是根据数据输入文件数来做均衡，我们确保每个map task需要拷贝相同的一个文件数。不过这里可能又有人会说了，我们怎么保证这些文件中个别文件是超大文件的情况，

最低0.47元/天解锁文章

Android路上的人

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
10
评论
聊聊Hadoop DistCp的数据切分处理方式

文章目录前言基于文件数/文件Size的数据切分方式前言在如今数据使用场景越来越多的环境下，如何对数据做到更准确，更高效的处理无疑是我们开发者所重点关注以及所期望达成的目标。说到数据的处理，在当今成熟的分布式系统下，我们已经能够达到比较高效的数据并行处理能力了。但是这并不意味着说对此我们没有别的改善空间的余地了。在数据的并行处理过程中，不是所有情况我们都能保证每个并行处理任务都能按照预期顺利执行，中间就可能出现长尾任务现象。这里笔者想抛出的一个关键词：数据切分。在数据切分不均匀的情况下，是极有可能出现任
复制链接

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。