Hive中跑MapReduce Job出现OOM问题分析及解决

一、引子今天在跑一段很复杂而且涉及数据量10年的N个表join的长SQL时,发生了OOM的异常。由于一个map通常配置只有64MB或者128MB,则在Map阶段出现OOM的情况很少见。所以一般发生在reduce阶段。但是今天这个异常详细的看后,会发现既不是map阶段,也不是reduce阶段,发现不是执行过程,而是driver提交job阶段就OOM了。Hive中XMLEncoder序列化Mapred...
阅读(7673) 评论(0)

Hive中reduce个数设定

Hive中reduce个数设定原理解析...
阅读(5117) 评论(1)

Hive数据翻倍总结

1. 本来8千万的数据和8千万的数据一下join后,变成了30亿。。 2....
阅读(1892) 评论(1)

Lateral View用法 与 Hive UDTF explode

Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。 1...
阅读(8297) 评论(1)

Hive导入sequencefile错误

原因: 自己上传的微...
阅读(2813) 评论(0)

hiveUDAF求中位数

第一次写UDAF,拿中位数来练手。 看下中位数定义: MEDIAN 中位数(一组数据按从小到大的顺序依次排列,处在中间位置的一个数或最中间两个数据的平均数) 写成genericUDAF的形式 1 2 3 4 中位数 2+3/2=2.5 1 2 3 中位数 2 附上代码: package org.apache.hadoop.hive.ql.udf.generic;...
阅读(3774) 评论(0)

查找hive中的视图

有一个需求,让找出hive中的所有视图。 hive没有直接的命令来查看这个表是否是视图还是普通表。 cd $HIVE_HOME/conf/ more hive-site.xml 假设我们看到的用户名和密码是hive_user和123456         javax.jdo.option.ConnectionURL      jdbc:mysql://host:3306/hi...
阅读(1448) 评论(0)

hive求页面访问路径

曾今在论坛上看到一个这样的题: 有一张很大的表:TRLOG该表大概有2T左右 TRLOG: CREATE TABLE TRLOG (PLATFORM string, USER_ID int, CLICK_TIME string, CLICK_URL string) row format delimited fields terminated by '\t'; 数据: PLATFORM U...
阅读(1241) 评论(0)
    个人资料
    • 访问:466560次
    • 积分:5151
    • 等级:
    • 排名:第5356名
    • 原创:80篇
    • 转载:0篇
    • 译文:1篇
    • 评论:67条
    博客专栏
    微博
    文章分类
    最新评论