hive：使用map join解决大小表关联造成的数据倾斜

最新推荐文章于 2024-02-10 18:58:14 发布

白修修

最新推荐文章于 2024-02-10 18:58:14 发布

阅读量3.6k

点赞数 1

分类专栏：大数据问题处理文章标签： hive 数据库

本文链接：https://blog.csdn.net/weixin_41639302/article/details/107235828

版权

什么是数据倾斜

在大数据处理过程中，不怕数据大，就怕数据倾斜。
数据倾斜就是在mapreduce过程中，一个或几个reduce端处理的数据量过大，明显远大于平均值，导致少数的reduce端的任务长时间无法完成，而其他reduce端又无事可做，明显的效率低下。

1、关联查询时，有一个较小的表的key比较集中
key的分布不均就导致在分区时，某一个或几个分区的数量过多
2、使用group by但没有用聚合函数，导致维度过小，某值的数量过多

  那么我们需要在使用group by时注意一定要同时使用聚合函数，避免数据倾斜。

map join 概念：将其中做连接的小表（全量数据）分发到所有 MapTask 端进行 Join，从而避免了 reduceTask，前提要求是内存足以装下该全量数据。

map join通常用于一个很小的表和一个大表进行join的场景，具体小表有多小，由参数 hive.mapjoin.smalltable.filesize来决定，该参数表示小表的总大小，默认值为25000000字节，即25M。一般默认就够了，无须修改。

关注