![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
碣石观海
幸甚至哉,歌以咏志
展开
-
MapReduce编程之二次排序
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、二次排序二次排序就是先按某一列先进行排序,然后在此基础上再对另一列排序。(参看如下表数据)--待排序数据: --第一种排序结果: --第二种排序结果: --第三种排序结果: --第四种排序结果:4 2 0 5 ...原创 2019-04-21 20:06:56 · 984 阅读 · 0 评论 -
MapReduce任务是多进程单线程模式验证
一、验证MapReduce任务是多进程的1. 实现MyMapper代码,Reducer可相同处理。如下:package com.mapreduce;import java.io.IOException;import java.lang.management.ManagementFactory;import java.lang.management.RuntimeMXBean;...原创 2019-05-22 23:43:40 · 744 阅读 · 0 评论 -
MapReduce编程之连接Join
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、设计思路HDFS上存放两个文件,一个记录了学生基本信息(姓名,学号),文件名“student_info.txt”,文件内容为: Jenny 00001 Hardy 00002 Bardley 00003 ... 另一个文件记录了学生的选...原创 2019-04-19 23:13:02 · 604 阅读 · 1 评论 -
MapReduce的Reducer类
一、Reducer类源码Reducer模板类 Reducer class Context -- 保存了作业运行的上下文信息,例如作业配置信息、InputSplit信息、任务ID setup() -- reduce前的准备工作(可重写) reduce() -- 承担主要的对键值对的处理工作(可重写) cleanup() -- 收尾工作...原创 2019-04-19 15:21:46 · 1751 阅读 · 0 评论 -
MapReduce的Mapper类
一、Mapper类源码Mapper模板类 Mapper class Context -- 保存了作业运行的上下文信息,例如作业配置信息、InputSplit信息、任务ID setup() -- map前的准备工作(可重写) map() -- 承担主要的对键值对的处理工作(可重写) cleanup() -- 收尾工作,例如关闭文件、执...原创 2019-04-19 15:03:14 · 1732 阅读 · 0 评论 -
MapReduce的Combine操作&shuffle控制&sort控制
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、Combine操作1.combine在MapReduce中是一个可选的过程。2.Hadoop性能很大程度受限于网络带宽,map函数输出的中间结果都是通过网络传递给reduce函数的,所以提高中间结果数据量就可以提高程序运行效率。3.combine操作是对map中间结果传递给reduce之...原创 2019-04-19 16:34:17 · 2057 阅读 · 0 评论 -
MapReduce的过程图解
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、MapReduce从输入到输出二、文件块与输入分片的关系三、map及中间结果的输出四、shuffle及reduce过程...原创 2019-04-18 18:25:05 · 816 阅读 · 0 评论 -
MapReduce作业的几种输入输出方式设置
一、作业文件输入分片读入格式设置import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;//1.设置文...原创 2019-04-22 21:26:30 · 952 阅读 · 0 评论 -
MapReduce编程之入门 Hello Word Count
目录1.单词计数Mapper类2.单词计数Reducer类3.单词计数main函数类4.运行程序------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来注:实际上此文件很小(只有四行英文),查看作业日志:文件分块是1个,map是1个,reduce是1个。需要引入的Jar包:hadoop-common-2.9.2.jar和h...原创 2019-04-14 23:49:27 · 256 阅读 · 0 评论 -
MapReduce编程之全排序
------------本文笔记整理自《Hadoop海量数据处理:技术详解与项目实战》范东来一、全排序1.全排序也就是全局排序,意为多区间上的全局排序。2.这是相对单区间单Reducer任务排序而发展出来的多区间多Reducer任务的排序。可以提高程序的并行性,提升效率。3.多区间的排序时间受限于最长排序时间的那个区间,所以为使总体排序时间最短,就要求数据在各区间的分布相对均匀。可...原创 2019-04-22 12:40:55 · 1098 阅读 · 0 评论 -
实现MapReduce作业的分布式缓存加载到本地计算节点
一、问题场景MapReduce任务是在独立的计算节点运行的。因此,对于作业提交节点上的某些文件,在计算节点本地是不存在的,会导致MapReduce任务失败(找不到文件)。二、使用Hadoop分布式缓存(推荐)1. 将计算结点需要的“边数据”(当前为"qqwry.dat"文件)上传到HDFS分布式文件系统中;2. Job任务设置其(HDFS路径)为分布式缓存;(缓存文件会默认下载到每...原创 2019-05-28 17:24:37 · 373 阅读 · 0 评论