MapReduce
文章平均质量分 64
谦卑t
终身学习
展开
-
MapReduce--1--入门程序WordCount
MapReduce界的helloworld程序就是WordCount程序。所谓WordCount,就是单词计数,就是用来统计一篇或者一堆文本文件中的各单词的出现次数。 按照我们普通的编写代码的逻辑,单词计数程序应该是这样的:1、逐行读取文本内容2、把读取到的一行文本内容切割为一个一个的单词3、把每个单词出现一次的信息记录为一个key-value,也就是“单词-1”4、收集所...转载 2018-11-27 13:21:54 · 342 阅读 · 0 评论 -
MapReduce--9--求变动版本
MapReduce面试题3–求变动版本1、数据现在有如下一份数据:20170308,黄渤,光环斗地主,8,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,5,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,7,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京20170308,黄渤,光环斗...转载 2018-11-27 20:39:12 · 235 阅读 · 0 评论 -
MapReduce--8--求互为好友的好友对
1、数据格式现在有一份如下这种格式的数据:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K数据的格式以“:”分割成两部分,前面是用户,后面是该用户的好友,以...转载 2018-11-27 20:33:15 · 335 阅读 · 0 评论 -
MapReduce--7--求共同好友--改进版JobControl
MapReduce–7--求共同好友–改进版JobControl在上一节链接: MapReduce–6--共同好友.中,我们发现,一个需求得出解,需要有两个MapReduce程序,那么如果碰到类似的需要运行多个有依赖关系的Job时,我们可以使用JobControl这个工具类,来管理多个具有依赖关系的job的运行, 所以上一MapReduce案例,我做了如下改写:请看具体的代码实现:pac...转载 2018-11-27 20:26:09 · 160 阅读 · 0 评论 -
MapReduce--6--共同好友
MapReduce面试题1--求共同好友1、数据格式现在有一份数据如下:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K数据以“:”为分割符,分隔...转载 2018-11-27 20:12:00 · 183 阅读 · 0 评论 -
MapReduce--5--单词去重WordDistinctMR
MapReduce编程之单词去重在MR编程中,最典型的业务就是求sum,max,min,avg,distinct, group by 还有 join 等操作的实现了。事实上,无论是那种业务。 MapReduce的编程框架已经决定了要把mapper阶段计算出来的key-value会按照key做组划分。所以reduceTask当中的reduce方法,其实接收到的参数就是key相同的一组key-va...转载 2018-11-27 15:46:12 · 1118 阅读 · 0 评论 -
MapReduce--4--Combiner做MapTask局部合并
MapReduce中的Combiner详解 1、什么是CombinerCombiner是MapReduce程序中Mapper和Reducer之外的一种组件,它的作用是在maptask之后给maptask的结果进行局部汇总,以减轻reducetask的计算负载,减少网络传输2、Combiner的编写方式Combiner和Reducer一样,编写一个类,然后继承Reducer,re...转载 2018-11-27 15:42:42 · 233 阅读 · 0 评论 -
MapReduce--3--常用计数器详解
在本帖中,我想解释Hadoop计数器的含义(在作业完成后通常可以看到的那些计数器)。我一直在分析我们相对较小的集群中长时间运行的作业的匮乏,Hadoop计数器在这个调查中极其重要。不幸的是,我找不到任何能详细解释这些含义的资源。在下面的表格中,我试图清楚地描述Hadoop 2.6版本中每个计数器的含义。信息来源:https://www.mapr.com/blog/management-....转载 2018-11-27 15:36:19 · 215 阅读 · 0 评论 -
MapReduce--2--MapReduce全局计数器
MapReduce的全局计数器1.1、介绍计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapReduce性能优化的评估大部分都是基于这些 Co...转载 2018-11-27 13:26:40 · 202 阅读 · 0 评论 -
MapReduce编程案例系列篇(1-9)
MapReduce编程案例系列篇(1-9)由于本人最开始接触大数据工作,主要以写MapReduce程序为主,虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点,我相信,将来,MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居上。在此,本人总结一篇关于MapReduce编程的各种典...转载 2018-11-27 20:55:27 · 429 阅读 · 0 评论