pig中group时数据倾斜问题

最新推荐文章于 2024-05-30 00:18:13 发布

liweisnake

最新推荐文章于 2024-05-30 00:18:13 发布

阅读量1.1k

点赞数

分类专栏： big data

本文链接：https://blog.csdn.net/liweisnake/article/details/95500457

版权

big data 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在Pig中遇到数据倾斜问题，表现为reduce job运行时出现GC overhead limit exceeded错误，原因是某些key过大导致的内存溢出。通过增加reduce job数量和采用salt进行预分组来优化，降低单个reduce task处理的数据量，从而避免OOM问题。通过调整Pig参数和优化策略，可以有效改善性能。

摘要由CSDN通过智能技术生成

在使用pig时遇到了数据倾斜问题。某些数据能够正常计算，但是对于另一些数据reduce job运行至某个地方会报错GC overhead limit exceeded，实际上就是OOM了。

首先分析问题是什么，观察到计算错误的数据并没有被计算完，且每次日志是停在固定位置的，从日志内容可以看出，GC overhead发生在reduce job前准备reduce的参数Tuple时，推断某些key过大导致Tuple过大，因而无法计算完成。

一种可能的解决方式就是增大reduce job数，将原来可能1亿的key到同一个reduce job变为1亿key分到多个reduce job，这种方式在遇到瓶颈时只需要加reduce job数就可以继续扩展。

修改前的代码如下

population_info = FOREACH (GROUP data_cols BY ($PSIColumn, $1) PARALLEL $column_parallel) GENERATE PopulationCounter(*) as counters;

修改后的代码，基本思想就是使用一个salt同时作为group by的key先做一次group by，此时数据已经被处理和归并过一次，无论是长度还是条数都大幅减小，然后再使用原来的key再做一次group by，此时得到的结果就是最终想要的结果，其过程类似“大内存优化reduce”中的做法。

data_cols = FOREACH data_cols GENERATE $PSIColumn, columnId, value, tag,  rand as salt, weight;
data_cols_grd = GROUP data_cols BY ($PSIColumn, columnId, salt) PARALLEL $column_parallel;
population_info = FOREACH data_cols_grd GENERATE FLATTEN(group), PopulationCounter(*) as counters;

population_info = FILTER population_info BY counters is not null;

population_grp = GROUP population_info BY ($PSIColumn, columnId);
population_info = FOREACH population_grp GENERATE PopulationCounterSum(*) as counters;

pig参数调优详解 https://www.twblogs.net/a/5b8e28312b7177188343377e/zh-cn

pig性能调优分析 https://pdfs.semanticscholar.org/ec19/1d78641c81fcc7e744cded3a0e8847fe86a4.pdf

大内存优化reduce https://stackoverflow.com/questions/11999268/how-to-handle-spill-memory-in-pig