Hive ERROR: Out of memory due to hash maps used in map-side aggregation

在执行H-SQL:  select collect_set(messageDate)[0],count(*) from incidents_hive group by substr(messageDate,8,2);

时报以下错误:

URL:
  http://RDCMaster.cluster:50030/taskdetails.jsp?jobid=job_201403041024_0002&tipid=task_201403041024_0002_m_000197

Possible error:
  Out of memory due to hash maps used in map-side aggregation.

Solution:
  Currently hive.map.aggr.hash.percentmemory is set to 0.5. Try setting it to a lower value. i.e 'set hive.map.aggr.hash.percentmemory = 0.25;'
-----
Diagnostic Messages for this Task:
java.lang.Throwable: Child Error
    at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)
Caused by: java.io.IOException: Task process exit with nonzero status of 65.
    at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258)


FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
MapReduce Jobs Launched:
Job 0: Map: 433  Reduce: 20   Cumulative CPU: 12732.44 sec   HDFS Read: 67006 HDFS Write: 0 FAIL
Total MapReduce CPU Time Spent: 0 days 3 hours 32 minutes 12 seconds 440 msec

错误原因:Map端聚合时hash表所占用的内存比例默认为0.5,这个值超过可用内存大小,导致内存溢出。

解决办法:

如果按照异常信息里的建议:Try setting it to a lower value. i.e 'set hive.map.aggr.hash.percentmemory = 0.25,解决不了问题。

意思是说,当内存的Map大小,占到JVM配置的Map进程的25%的时候(默认是50%),就将这个数据flush到reducer去,以释放内存Map的空间。

我把H-SQL改成:

select hourNum, count(1) from (select substr(messageDate,9,2) as hourNum from incidents_hive ) t group by hourNum;   问题解决!

其他的解决方法:

或者干脆关掉 MapAggregation ,不建议~~

set hive.map.aggr=false;

如果内存Map超过一定大小,就关闭MapAggregation功能

set hive.map.aggr.hash.min.reduction=0.5;



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_大漠孤烟_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值