数据倾斜表现
1)hadoop中的数据倾斜表现:
-
有一个多几个Reduce卡住,卡在99.99%,一直不能结束。
-
各种container报错OOM
-
异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer
-
伴随着数据倾斜,会出现任务被kill等各种诡异的表现。
2)hive中数据倾斜
- 一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。
3)Spark中的数据倾斜
Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主要有下面几种:
-
Executor lost,OOM,Shuffle过程出错;
-
Driver OOM;
-
单个Executor执行时间特别久,整体任务卡在某个阶段不能结束;
-
正常运行的任务突然失败;