- 博客(1)
- 收藏
- 关注
原创 Hive数据倾斜问题
什么是数据倾斜MapReduce中,相同Key的Value都给了一个reduce,如果个别key数据较多,而其他key的较少,就出现了数据倾斜。有的map很快,有的reduce很慢。Hive执行是分阶段的.Map的处理数据量差异取决于上一个stage的reduce输出,如果在map端,有的job很快,有的很慢,就出现了数据倾斜。数据倾斜的情况1)连接join: a)小表与大表,小表key集中。分发...
2018-04-10 15:47:24 370
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人