1)内存溢出
map阶段解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。
shuffle阶段
解决:增加reduce数(set mapreduce.job.reduces=xxx)或调整放在内存里的最大片段所占百分比(set mapreduce.reduce.shuffle.memory.limit.percent=0.10)。
reduce阶段
解决:增加reduce数(set mapreduce.job.reduces=xxx)。如果存在数据倾斜,单纯增加reduce个数没有用,参考“Hive优化方法.ppt”进行数据倾斜优化。
2)执行动态分区HQL报错,报错信息类似如下:
org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error: Unable to deserialize reduce input key from x1x128x0x0x19x1x255 with properties {columns=reducesinkkey0,reducesinkkey1,reducesinkkey2,reducesinkkey3, serialization.lib=org.apache.hadoop.hive.serde2.binarysortable.BinarySortableSerDe, serialization.sort.order=++++++, columns.types=int,int,int,int,string,bigint}解决:设置参数set hive.optimize.sort.