mapreduce
tianjun2012
这个作者很懒,什么都没留下…
展开
-
mapreduce系列(2)shuffle流程及Combiner
一、shuffle流程原理二、Combiner的使用package wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/** * combiner可以在原创 2017-03-17 15:28:29 · 692 阅读 · 0 评论 -
mapreduce系列(9)--自定义OutputFormat
111111原创 2017-03-20 17:28:10 · 409 阅读 · 0 评论 -
mapreduce系列(8)--自定义GroupingComparator
一、概述GroupingComparator是在reduce阶段分组来使用的,由于reduce阶段,如果key相同的一组,只取第一个key作为key,迭代所有的values。如果reduce的key是自定义的bean,我们只需要bean里面的摸个属性相同就认为这样的key是相同的,这是我们就需要之定义GroupCoparator来“欺骗”reduce了。我们需要理清楚的还有map阶段你的几个自定原创 2017-03-20 15:59:21 · 2694 阅读 · 0 评论 -
mapreduce系列(7)--查找共同好友
一、概述A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些人两两之间有共同好友,及他俩的共同好友都是谁 比如:a-b : c ,e原创 2017-03-20 14:32:44 · 5312 阅读 · 2 评论 -
maprecuce系列(5)——map端join算法实现
一、概述在(4)中我们很快的实现了join的功能,但是在实际的生产中,会有一个严重的问题,由于数据量比较大,最后的分区比如都根据hashpartion来处理,就会导致数据的倾斜,有的reduceTask就会工作量太大,有的工作量就会太小,其实,我们可以看到,maptask阶段的任务分配其实还是比较均匀的,所以如果能在map阶段,把所有的工作都给处理掉就好了,这样我们就会想到缓存,数据量不大的一张表缓原创 2017-03-19 22:37:23 · 557 阅读 · 0 评论 -
mapreduce系列(6)---倒排索引的建立
一、概述如我们有三个文件: a.txt,b.txt,c.txttian junli leihan meimeili leihan meimeili leihan meimeitian jungegejiejietian jungegejiejiegegejiejiehan meimeitian junhan meimeitian jun统计出没个词在每篇文章中出现的原创 2017-03-20 14:21:22 · 672 阅读 · 0 评论 -
maprecuce系列(4)——reduce端join算法实现
一、需求1、如下订单表:id、date、pid、amount1001,20160710,P0001,21002,20160710,P0001,31002,20170710,P0002,31001,20160710,P0001,21002,20140710,P0003,31003,20150710,P0002,32、如下商品信息表:id,panme,category_id,priceP000原创 2017-03-19 22:30:19 · 620 阅读 · 0 评论 -
mapreduce系列(3)----在window端远程提交mr程序运行
之前讲到windows上跑本地版的mapreduce程序,毫无问题, 但是更进一步,我现在想直接把我的idea上的程序运行在linunx集群上,这样,我的本地就相当于是mapreduce的一个客户端了。 沿着这个思路,我们直接把conf配置如下设置:conf.set("mapreduce.framework.name","yarn");conf.set("yarn.resourcemanage原创 2017-03-17 20:10:37 · 1653 阅读 · 0 评论 -
mapreduce系列(1)---入门案例深入分析以及切片源码简析
自定义一个mapreduce程序: FlowBean.java(实现hadoop的序列化)package lltj;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 自定义bean原创 2017-03-16 21:31:53 · 1491 阅读 · 0 评论 -
mapreduce系列(10)--自定义Inputformat
123原创 2017-03-20 19:42:46 · 1214 阅读 · 1 评论