hadoop
文章平均质量分 76
a11123939
算法导论真是头疼
展开
-
MapReduce实现基本SQL操作的原理-join和group by,以及Dinstinct
详细讲解SQL编译为MapReduce之前,我们先来看看MapReduce框架实现SQL基本操作的原理Join的实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下转载 2015-02-03 09:59:26 · 14292 阅读 · 1 评论 -
yarn container内存调优——防止container被kill
今天散仙写了个MapReduce作业,目的是读数据库里面多个表的数据,然后在JAVA中根据具体的业务情况做过滤,并把符合数据的结果写入到HDFS上,在Eclipse里面提交作业进行调试的时候,发现在Reduce阶段,总是抛出Java heap space的异常,这异常明显,就是堆内存溢出造成的,然后散仙仔细看了下业务块的代码,在Reduce里读数据库的时候,有几个表的返回数据量比较大约有50万左右转载 2015-01-25 16:59:21 · 12336 阅读 · 0 评论 -
map/reduce的原理| hive 用户手册| hive SERDE | map参数调整 | UDF
map/reduce的原理| hive 用户手册| hive SERDE | map参数调整 | UDF原创 2015-03-10 16:14:25 · 2230 阅读 · 0 评论