- 博客(1)
- 收藏
- 关注
原创 Hive解决数据倾斜方法
数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用。开启了负载均衡以后,会生成两个mr,第一个mr会打散数据,也就是随机分发数据,进行局部聚合;第二个mr根据group by key的逻辑完成全局聚合。容易产生数据倾斜的几种情况:count distinct、group by key、Join。两阶段聚合,加盐局部聚合,去盐全局聚合。
2022-09-22 16:16:27 1296
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人