Hive：select count(distinct)优化以及hive.groupby.skewindata

最新推荐文章于 2024-07-30 09:01:15 发布

小柯点点

最新推荐文章于 2024-07-30 09:01:15 发布

阅读量3.3k

点赞数 20

分类专栏：数仓文章标签： hive 大数据

本文链接：https://blog.csdn.net/qq_38783098/article/details/113772254

版权

本文主要探讨了Hive中遇到的数据倾斜问题，特别是在执行`select count(distinct)`查询时。通过分析Hive的MapReduce执行流程，揭示了数据倾斜的原因在于Group By字段导致的数据不均匀分布。提出了通过设置`hive.groupby.skewindata=true`参数，将查询分为两个阶段，实现数据去重和局部聚合，从而优化性能。此外，还讨论了如何手动优化多列`count(distinct)`的场景，通过分治思想分别计算后再合并结果，有效提升查询效率。

摘要由CSDN通过智能技术生成

问题引入

数据分析师小A接到需求，需要统计当日各个省份20岁以下的日活跃用户数（去重统计user_id，即UV）

现有一个Hive表存储着用户行为数据

Hive表：user_behaviour_trace_info
列	描述
user_id	用户id
nickname	昵称
age	年龄
province	省份
url	访问地址
access_time	访问时间
device_id	用户手机设备id

小A很顺其自然的写出这段SQL：

select
  province,
  count(distinct user_id) as uv
from
  user_behaviour_trace_info
where
  access_time = '今天' and age < 20
group by
  province

立马提交SQL开始执行任务，一顿操作猛如虎，一看时长十点五（小时）

心想不愧是用户行为数据，数据量居然这么大？那让我们看看任务各个Task的执行耗时：

以下三个JobHistory截图属于另一个select count(distinct)数据倾斜任务，具有代表意义

我们可以观察到

任务整体耗时：10小时11分钟：
Map Task 平均耗时：1分16秒
Reduce Task 平均耗时：1分59秒

任务执行时间长，MR Task 平均耗时短，极有可能是出现了数据倾斜！

那我们继续看看Map Task的执行情况，按Map Task耗时倒序排序

Map Task最长耗时为2分49秒，而且整体看起来运行耗时相差不大，问题不在Map阶段

接下来看看Reduce阶段，按Reduce Task耗时倒序排序

最低0.47元/天解锁文章

小柯点点

关注

20
点赞
踩
43

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录