MapReduce学习

最新推荐文章于 2022-07-06 15:28:24 发布

ddhdzt

最新推荐文章于 2022-07-06 15:28:24 发布

阅读量318

点赞数

分类专栏： Hadoop 文章标签： mapreduce hadoop 分布式计算

本文链接：https://blog.csdn.net/ddhdzt/article/details/50119663

版权

Hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

主要为4大内容：

1.MapReduce原理

2.MapReduce执行过程

3.数据类型与格式

4.Writable接口与序列化机制

MapReduce概述

lMapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.

lMR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。

l这两个函数的形参是key、value对，表示函数的输入信息。

MapReduce原理

1. map任务处理

1.1读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。

1.2写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

1.3 对输出的key、value进行分区。

1.4对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。

1.5 (可选)分组后的数据进行归约。

2.reduce任务处理

2.1对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。

2.2对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

2.3 把reduce的输出保存到文件中。

WordCountApp的驱动代码

public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();    //加载配置文件
    Job job = new Job(conf);    //创建一个job，供JobTracker使用
    job.setJarByClass(WordCountApp.class);
		
    job.setMapperClass(WordCountMapper.class);
    job.setReducerClass(WordCountReducer.class);

    FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.1.10:9000/input"));
    FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.1.10:9000/output"));

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
		
    job.waitForCompletion(true);
}

1.执行MR的命令：
hadoop jar <jar在linux的路径> <main方法所在的类的全类名> <参数>
例子：
hadoop jar /root/wc1.jar cn.itcast.d3.hadoop.mr.WordCount hdfs://itcast:9000/words /out2

2.MR执行流程（心跳机制）
(1).客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)
(2).JobClient通过RPC和JobTracker进行通信，返回一个存放jar包的地址（HDFS）和jobId
(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
(4).开始提交任务(任务的描述信息，不是jar, 包括jobid，jar存放的位置，配置信息等等)
(5).JobTracker进行初始化任务
(6).读取HDFS上的要处理的文件，开始计算输入分片，每一个分片对应一个MapperTask
(7).TaskTracker通过心跳机制领取任务（任务的描述信息）
(8).下载所需的jar，配置文件等
(9).TaskTracker启动一个java child子进程，用来执行具体的任务（MapperTask或ReducerTask）
(10).将结果写入到HDFS当中
重点在10步，Yarn的10步曲~

序列化概念

l序列化（Serialization）是指把结构化对象转化为字节流。

l反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。

lJava序列化（java.io.Serializable）

l序列化格式特点：

1.紧凑：高效使用存储空间。

2.快速：读写数据的额外开销小

3.可扩展：可透明地读取老格式的数据

4.互操作：支持多语言的交互

继承Mapper类

	public static class DCMapper extends Mapper<LongWritable, Text, Text, DataBean>{
		@Override
		protected void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			//accept 
			String line = value.toString();
			//split
			String[] fields = line.split("\t");
			String tel = fields[1];
			long up = Long.parseLong(fields[8]);
			long down = Long.parseLong(fields[9]);	
			DataBean bean = new DataBean(tel, up, down);
			//send
			context.write(new Text(tel), bean);
		}
	}

继承Reducer类

public static class DCReducer extends Reducer<Text, DataBean, Text, DataBean>{

		@Override
		protected void reduce(Text key, Iterable<DataBean> values, Context context)
				throws IOException, InterruptedException {
			long up_sum = 0;
			long down_sum = 0;
			for(DataBean bean : values){
				up_sum += bean.getUpPayLoad();
				down_sum += bean.getDownPayLoad();
			}
			DataBean bean = new DataBean("", up_sum, down_sum);
			context.write(key, bean);
		}
		
		
	}

DataBean实现Writable接口

重写序列化和反序列化函数

	@Override
	public void readFields(DataInput in) throws IOException {
		// TODO Auto-generated method stub
		this.tel = in.readUTF();
		this.upPayLoad = in.readLong();
		this.downPayLoad = in.readLong();
		this.totalPayLoad = in.readLong();
	}
	@Override
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeUTF(tel);
		out.writeLong(upPayLoad);
		out.writeLong(downPayLoad);
		out.writeLong(totalPayLoad);
	}

ddhdzt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce学习

主要为4大内容：1.MapReduce原理2.MapReduce执行过程3.数据类型与格式4.Writable接口与序列化机制MapReduce概述lMapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.lMR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计
复制链接

扫一扫