1,数据倾斜的现象
多数task执行速度较快,少数task执行时间非常长,或者等待很长的时间后提示你内存不足,执行失败
2,为什么数据倾斜,以及解决方案
①数据本身的问题
1,null空值或者是一些没有意义的信息之类的(大多是这个原因)
2,无效数据,大量重复的测试数据或者是对结果数据影响不大的有效数据
3,有效数据,业务原因导致的正常数据分布,例如统计各省份的信息
解决办法:
1,2两种情况,直接对数据进行过滤
3:
Ⅰ,隔离执行,将异常的key过滤出来单独处理,最后和正常数据union
Ⅱ,给key先添加随机值,进行操作过后,去掉随机值,再进行一次操作
②SQL语句的调节
如何Join:
Ⅰ,驱动表选取join key分布最均匀
Ⅱ,做好filter操作
Ⅲ,count distinct 可以先group by 后再count
③ hive的参数设置
Ⅰ,hive.map.aggr=true 在map端聚合,相当于combiner
Ⅱ,hive.groupby.skewindata=true,生成的查询计划会有两个MR job,第一个MR job中,map输出结果集合会随机分布到reduce中。从而到达负载均衡的目的
hive的数据倾斜问题
最新推荐文章于 2024-10-26 00:03:14 发布