mapreduce
yzgyjyw
这个作者很懒,什么都没留下…
展开
-
使用MapReduce实现寻找共同好友的案例
假设有一下qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J问题:如果两个用户之原创 2017-06-05 15:53:00 · 3925 阅读 · 0 评论 -
使用MapReduce求解join问题
背景有两张表,以文件的形式存储在hdfs中,如下:学生基本信息001 jyw nan002 lq nv003 jl n学生考试成绩信息001 english 90001 math 92002 chinese 99现在需要求解每一个学生参加的考试的成绩以及学生信息 sql就类似于:select stu.*,score.grade from stu join score on s原创 2017-06-05 14:24:33 · 1201 阅读 · 0 评论 -
运行MR程序的方式
运行MR程序的几种方式打包成jar包后运行可以需要配置 configuration.set("mapreduce.framework.name","yarn"); configuration.set("yarn.resourcemanager.hostname","bigdata02"); configuration.set("fs.defaultFS","hdfs://原创 2017-06-04 22:23:42 · 2241 阅读 · 0 评论 -
MapReduce的GroupComparator
问题有如下的订单数据,想要查询出每一个订单中的最贵的商品Order_0000001 Pdt_01 222.8Order_0000001 Pdt_01 222.8Order_0000002 Pdt_03 522.8Order_0000003 Pdt_01 222.8Order_0000004 Pdt_01 222.8Order_0000004 Pdt_05原创 2017-06-05 21:26:30 · 2939 阅读 · 1 评论 -
Hadoop2.x的yarn
hadoop mapreduce 1.x中的问题原理在1.x中主要使用的是JobTracker和TaskTracker这两个组件管理系统中的资源 step1:客户端提交任务 step2:JobTracker从namenode获取输入文件的数据块的列表信息 step3:JobTracker会根据第二步中获取到的数据块的列表信息将任务提交到离数据块尽可能近的位置上运行 step4:TaskTra原创 2017-06-06 11:48:14 · 1363 阅读 · 0 评论 -
MapReduce的Shuffle原理
什么是ShuffleHadoop计算框架Shuffler, 在mapper和reducer中间的一个步骤 ,可以把mapper的输出按照某种key值重新切分和组合成n份,把key值符 合某种范围的输出送到特定的reducer那里去处理Shuffle的原理分析运行步骤如下: step1:map端调用context.write(),先将数据写到map的缓冲区中,当缓冲区的填充比达到一个阈值的时候,系统原创 2017-06-06 22:24:50 · 1380 阅读 · 0 评论 -
MapReduce的全排序
问题的提出正常情况下,Mapreduce的保障之一就是送到Reducer端的数据总是根据Reducer的输入键进行排序的,如果我们使用单个Reducer,排序就会直接了当,但是只是使用一个Reducer的情况少之又少,如果使用了多个Reducer,那么就只可能会保证每一个Reducer内的内容是会根据键进行排序的,而不会保证Reducder之间也是有序的,就会出现下面这种情况: reducer1:原创 2017-06-07 10:39:35 · 5982 阅读 · 0 评论