MapReduce
RivenDong
这个作者很懒,什么都没留下…
展开
-
MapReduce的工作原理(一)
文章目录1. 前言2. MapReduce工作流程3. MapReduce运行机制4. MapReduce流程处理4.1 MapReduce执行过程图4.2 Split阶段4.3 Map阶段4.4 Combiner阶段4.5 Shuffle阶段4.5.1 Shuffle的前半生4.5.2 Shuffle的后半生4.5.3 Shuffle的人生意义4.6 Reduce阶段5. 灵魂拷问5.1 当缓冲...原创 2019-09-12 13:12:27 · 2848 阅读 · 0 评论 -
MapReduce实现二次排序(九)
文章目录1. 前言2. 需求分析3. 二次排序的实现原理4. 上传文件5. 代码实现6. 效果截图1. 前言默认情况下, Map会对key自动进行排序,但是有时候需要对key排序的同时还需要对value进行排序,这就是所谓的二次排序。2. 需求分析假设现在有如下数据:每行两列,列与列之间的分隔符是制表符(”\t“),输出的结果先按照第一个字段的升序排列,如果第一列的值相等,在按照第二个...原创 2019-09-17 20:30:36 · 1472 阅读 · 0 评论 -
MapReduce实现排序(八)
文章目录1. 前言2. MapReduce实现排序的原理3. 上传文件4. 代码实现5. 效果截图1. 前言需求:对输入文件中的数据进行排序,输入文件中的每一行均为一个数字,即为一个数据。要求在输出文件中每行输出两个数字,第一个代表原始数据在数据集中的顺次,第二个代表原始数据。2. MapReduce实现排序的原理在MapReduce中默认可以进行排序。如果key是封装为IntWrit...原创 2019-09-16 18:19:57 · 3159 阅读 · 0 评论 -
MapReduce实现Join(七)
文章目录1. 前言2. 需求分析3. 实现原理4. 实现代码4.1 上传数据4.2 程序源码5. 效果截图1. 前言大家应该比较熟悉SQL的Join操作:为了得到完整的结果,我们需要从两个或更多的表中获取结果,我们就需要执行 join,数据库中的表可通过键将彼此联系起来。但是在大数据场景下使用MapReduce编程模型实现join比较繁琐,当然在实际情况下我们可以借助Hive、Spar...原创 2019-09-16 17:34:00 · 1025 阅读 · 0 评论 -
MapReduce实现温度排序(六)
文章目录1. 任务需求2. 上传文件3. 实例代码3.1 实现思路3.2 源代码4. 运行效果1. 任务需求找出每年每月的3个最高温度时刻并进行降序排列2. 上传文件vi weather一通乱敲:hadoop fs -put weather /weather3. 实例代码3.1 实现思路为了提高执行效率,将每一年的数据分别由同的Reduce执行,产生不同的文件。把每年的...原创 2019-09-15 19:57:55 · 2015 阅读 · 0 评论 -
MapReduce之RecordReader(五)
文章目录1. RecordReader概述2. RecordReader的应用2.1 RecordReader的实现步骤2.2 需求分析2.3 上传测试文件2.4 执行代码2.5 效果截图3. 小结1. RecordReader概述RecordReader又叫记录读取器,是用来加载数据并把数据转换为适合mapper读取的键值对。RecordReader实例是由输入格式定义的,默认的输入格式为...原创 2019-09-14 19:49:53 · 1961 阅读 · 1 评论 -
MapReduce之Combiner、Partitioner(四)
文章目录1. Combiner概述2. Combiner的应用1. Combiner概述假设有如下场景:如果有10亿的数据,Mapper会生成一个10亿的key/value键值对在网络间进行传输,但如果我们的需求是求数据的最大值,则只需要Mapper输出它的最大值即可,这样做不仅可以减轻网络压力,同样可以大幅度的提升程序效率。在MapReducer框架中,Combiner就是为了 避免...原创 2019-09-14 11:37:22 · 1059 阅读 · 0 评论 -
MapReduce之InputFormat、OutputFormat(三)
文章目录1. 祝大家中秋节快乐2. MapReduce进阶2.1 MapReduce类型2.2 MapReduce输入格式2.2.1 InputFormat接口2.2.2 InputFormat接口的实现类2.3 MapReduce输出格式2.3.1 OutputFormat接口2.3.2 OutputFormat接口的实现类3. 小结1. 祝大家中秋节快乐身在长安,心在泰安,又是一年中秋佳节...原创 2019-09-13 20:49:20 · 1460 阅读 · 0 评论 -
MapReduce实现WordCount(二)
文章目录1. 前言2. WordCount实现设计分析2.1 实例文件2.2 Map过程2.3 Reduce过程3. 本地环境配置4. 代码实现5. WordCount代码说明1. 前言在上一节我已经详细了介绍了MapReduce的工作原理,为了加深对MapReduce的理解,我将以一个Hadoop界的hello world程序来示例。一个最简单的MapReduce应用程序至少包含三个部分:M...原创 2019-09-13 14:24:28 · 1173 阅读 · 0 评论 -
MapReduce实现二次排序续(十)
文章目录1. 前言2. 换一种文件格式3. 代码做部分修正4. 效果截图5. 小结1. 前言上一篇文章实现的二次排序key和value都是数字,接下来实现一组key为字母或单词,value为数字的二次排序。2. 换一种文件格式一通乱敲:上传文件:hadoop fs -put secondsort2 /secondsort23. 代码做部分修正MyKey类:package co...原创 2019-09-17 20:47:46 · 1476 阅读 · 0 评论