hive中的数据倾斜

最新推荐文章于 2023-01-02 20:10:01 发布

刘成坤

最新推荐文章于 2023-01-02 20:10:01 发布

阅读量168

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/ChengkunCutting/article/details/107161090

版权

什么是数据倾斜

数据倾斜在MapReduce编程模型中十分常见,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的。

hive如何避免数据倾斜

1、合理设置 Map 数量

1）通常情况下，作业会通过 input 的目录产生一个或者多个 map 任务。
主要的决定因素有：input 的文件总个数，input 的文件大小，集群设置的文件块大小。

2）是不是 map 数越多越好？
答案是否定的。如果一个任务有很多小文件（远远小于块大小 128m），则每个小文件
也会被当做一个块，用一个 map 任务来完成，而一个 map 任务启动和初始化的时间远远大
于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的 map 数是受限的。
3）是不是保证每个 map 处理接近 128m 的文件块，就高枕无忧了？
答案也是不一定。比如有一个 127m 的文件，正常会用一个 map 去完成，但这个文件
只有一个或者两个小字段，却有几千万的记录，如果 map 处理的逻辑比较复杂，用一个 map
任务去做，肯定也比较耗时。
针对上面的问题 2 和 3，我们需要采取两种方式来解决：即减少 map 数和增加 map 数；

将小文件进行合并

在 map 执行前合并小文件，减少 map 数：CombineHiveInputFormat 具有对小文件进
行合并的功能（系统默认的格式）。HiveInputFormat 没有对小文件合并功能。

复杂文件增加 Map 数

当 input 的文件都很大，任务逻辑复杂，map 执行非常慢的时候，可以考虑增加 Map
数，来使得每个 map 处理的数据量减少，从而提高任务的执行效率。
增加 map 的方法为：根据
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
公式，调整 maxSize 最大值。让 maxSize 最大值低于 blocksize 就可以增加 map 的个数。

并行执行

Hive 会将一个查询转化成一个或者多个阶段。这样的阶段可以是 MapReduce 阶段、抽
样阶段、合并阶段、limit 阶段。或者 Hive 执行过程中可能需要的其他阶段。默认情况下，
Hive 一次只会执行一个阶段。不过，某个特定的 job 可能包含众多的阶段，而这些阶段可能
并非完全互相依赖的，也就是说有些阶段是可以并行执行的，这样可能使得整个 job 的执行
时间缩短。不过，如果有更多的阶段可以并行执行，那么 job 可能就越快完成。

合理设置 Reducer 数量

1）调整 reduce 个数方法一
（1）每个 Reduce 处理的数据量默认是 256MB
hive.exec.reducers.bytes.per.reducer=256000000
（2）每个任务最大的 reduce 数，默认为 1009
hive.exec.reducers.max=1009
（3）计算 reducer 数的公式
N=min(参数 2，总输入数据量/参数 1)
2）调整 reduce 个数方法二
在 hadoop 的 mapred-default.xml 文件中修改
设置每个 job 的 Reduce 个数
set mapreduce.job.reduces = 15;
3）reduce 个数并不是越多越好
1）过多的启动和初始化 reduce 也会消耗时间和资源；
2）另外，有多少个 reduce，就会有多少个输出文件，如果生成了很多个小文件，那么
如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
在设置reduce个数的时候也需要考虑这两个原则：处理大数据量利用合适的reduce数；
使单个 reduce 任务处理数据量大小要合适；

刘成坤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive中的数据倾斜

什么是数据倾斜数据倾斜在MapReduce编程模型中十分常见,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的。hive如何避免数据倾斜1、合理设置 Map 数量1）通常情况下，作业会通过 input 的目录产生一个或者多个 map 任务。主
复制链接

扫一扫