MapReduce学习总结

MapReduce是一种分布式计算框架,又称并行计算框架,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,这里用户只需要实现map()和reduce()两个函数,即可实现分布式计算,听起来是不是感觉很简单的样子

如果要对MR有更深入的了解,就需要对MR的执行流程有更深入的了解了。这里先对MR执行流程做一个理论的介绍,之后举例论证这些流程,最后代码实现。

MR执行流程理论介绍,吴超老师号称该流程为天龙八步

1.map任务处理流程

1.1 读取输入文件内容,解析成key、value对(这个时候的键值对一般简称为k1、v1,k1取值一般为文件的偏移量,v1取值为该行的文本值)。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数

1.2写自己业务处理,对输入的key、value处理,转换成新的key、value(这个时候的key、value简称为k2、v2)输出

1.3对输出的key、value进行分区(也就是对数据分类,像红球、白球)。一个分区对应一个reduce函数处理

1.4对不同分区的数据,按照Key进行排序(对象key实现了自身的compare方法,系统自动进行排序)、分组(这里可以理解成对分区的数据按照某一标准在进一步划分,如球的大小),相同key的value系统会自动放到一个集合中。一个分组对应调用一次reduce函数

1.5分组后的数据进行归约(可选,一般reduce接受到的key、value数据类型跟处理后输出的key、value数据类型一致时才进行归约,归约可以看成合并,节省了在reduce阶段合并的时间,提高了效率)

2.reduce任务处理

2.1 对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点。

2.2对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的key、value处理(这个时候处理出来的key、value是一个key,对应一个value集合),转换成新的key、value输出。

2.3把reduce的输出保存到文件中。至此,MR处理结束

举例论证

需求:现有一个文件,里面记录了些许英语单词,现在统计这些单词的个数。

1.创建map函数

/**
	 * KEYIN	即k1		表示行的偏移量
	 * VALUEIN	即v1		表示行文本内容
	 * KEYOUT	即k2		表示行中出现的单词
	 * VALUEOUT	即v2		表示行中出现的单词的次数,固定值1
	 */
	static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
		protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {
			final Counter helloCounter = context.getCounter("Sensitive Words", "hello");//MR内置计数器
			
			final String line = v1.toString();
			if(line.contains("hello")){
				//记录敏感词出现在一行中
				helloCounter.increment(1L);//自动加1
			}
			final String[] splited = line.split("\t");//单词之间以制表符\t分隔
			for (String word : splited) {
				context.write(new Text(word), new LongWritable(1));
			}
		};
	}

2.创建reduce函数

	/**
	 * KEYIN	即k2		表示行中出现的单词
	 * VALUEIN	即v2		表示行中出现的单词的次数
	 * KEYOUT	即k3		表示文本中出现的不同单词
	 * VALUEOUT	即v3		表示文本中出现的不同单词的总次数
	 *
	 */
	static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
		protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {
			long times = 0L;
			for (LongWritable count : v2s) {
				times += count.get();
			}
			ctx.write(k2, new LongWritable(times));//输出指定路径的hdfs系统中
		};
	}

3.创建执行任务计算job

Configuration conf = new Configuration();
		final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
		final Path outPath = new Path(OUT_PATH);
		if(fileSystem.exists(outPath)){
			fileSystem.delete(outPath, true);
		}
		
		final Job job = new Job(conf , WordCountApp.class.getSimpleName());
		//1.1指定读取的文件位于哪里
		FileInputFormat.setInputPaths(job, INPUT_PATH);
		//指定如何对输入文件进行格式化,把输入文件每一行解析成键值对
		//job.setInputFormatClass(TextInputFormat.class);
		
		//1.2 指定自定义的map类
		job.setMapperClass(MyMapper.class);
		//map输出的<k,v>类型。如果<k3,v3>的类型与<k2,v2>类型一致,则可以省略
		//job.setMapOutputKeyClass(Text.class);
		//job.setMapOutputValueClass(LongWritable.class);
		
		//1.3 分区
		//job.setPartitionerClass(HashPartitioner.class);
		//有一个reduce任务运行
		//job.setNumReduceTasks(1);
		
		//1.4 TODO 排序、分组
		
		//1.5 TODO 规约
		
		//2.2 指定自定义reduce类
		job.setReducerClass(MyReducer.class);
		//指定reduce的输出类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		
		//2.3 指定写出到哪里
		FileOutputFormat.setOutputPath(job, outPath);
		//指定输出文件的格式化类
		//job.setOutputFormatClass(TextOutputFormat.class);
		
		//把job提交给JobTracker运行
		job.waitForCompletion(true);

至此,MR整个的理论加举例的整体执行流程已经很清楚了。单词计数的分区、排序、分组执行流程不很明显,现做另外举例讲解。

需求:手机上网会有日志记录,一行日志记录会包含手机号、上网时间戳、上传文件流量、下载流量等一些数据。现统计各个手机号的下载、上传流量的记录和。

1.分区

1.1创建日志记录对象

class KpiWritable implements Writable{
	long upPackNum;
	long downPackNum;
	long upPayLoad;
	long downPayLoad;
	
	public KpiWritable(){}
	
	public KpiWritable(String upPackNum, String downPackNum, String upPayLoad, String downPayLoad){
		this.upPackNum = Long.parseLong(upPackNum);
		this.downPackNum = Long.parseLong(downPackNum);
		this.upPayLoad = Long.parseLong(upPayLoad);
		this.downPayLoad = Long.parseLong(downPayLoad);
	}
	
	
	@Override
	public void readFields(DataInput in) throws IOException {
		this.upPackNum = in.readLong();
		this.downPackNum = in.readLong();
		this.upPayLoad = in.readLong();
		this.downPayLoad = in.readLong();
	}

	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(upPackNum);
		out.writeLong(downPackNum);
		out.writeLong(upPayLoad);
		out.writeLong(downPayLoad);
	}
	
	@Override
	public String toString() {
		return upPackNum + "\t" + downPackNum + "\t" + upPayLoad + "\t" + downPayLoad;
	}
}

1.2分区

static class KpiPartitioner extends HashPartitioner<Text, KpiWritable>{
		@Override//返回的是处理分区数据的reduce函数下标
		public int getPartition(Text key, KpiWritable value, int numReduceTasks) {
			return (key.toString().length()==11)?0:1;
		}
	}


1.3设置调用分区

//1.3 指定分区类
		job.setPartitionerClass(KpiPartitioner.class);
		job.setNumReduceTasks(2);
		

需求:有数值对 a    b ,当第一个数不同时,升序;当第一个数相同时,第二个数升
2.排序,系统自动调用比较函数,进行排序

	static class  NewK2 implements WritableComparable<NewK2>{
		Long first;
		Long second;
		public NewK2(){}
		public NewK2(long first, long second){
			this.first = first;
			this.second = second;
		}
		@Override
		public void readFields(DataInput in) throws IOException {
			this.first = in.readLong();
			this.second = in.readLong();
		}

		@Override
		public void write(DataOutput out) throws IOException {
			out.writeLong(first);
			out.writeLong(second);
		}
		@Override
		public int compareTo(NewK2 o) {
			final long minus = this.first - o.first;//当k2进行排序时,会调用该方法.当第一列不同时,升序;当第一列相同时,第二列升序
			if(minus !=0){
				return (int)minus;
			}
			return (int)(this.second - o.second);
		}
		
		@Override
		public int hashCode() {
			return this.first.hashCode()+this.second.hashCode();
		}
		@Override
		public boolean equals(Object obj) {
			if(!(obj instanceof NewK2)){
				return false;
			}
			NewK2 oK2 = (NewK2)obj;
			return (this.first==oK2.first)&&(this.second==oK2.second);
		}
	}

3.分组,需求:按照数值对第一个数分组

3.1.创建分组比较器
static class MyGroupingComparator implements RawComparator<NewK2>{

		@Override
		public int compare(NewK2 o1, NewK2 o2) {//返回0表示是同一组
			return (int)(o1.first - o2.first);
		}
		/**
		 * @param arg0 表示第一个参与比较的字节数组
		 * @param arg1 表示第一个参与比较的字节数组的起始位置
		 * @param arg2 表示第一个参与比较的字节数组的偏移量
		 * 
		 * @param arg3 表示第二个参与比较的字节数组
		 * @param arg4 表示第二个参与比较的字节数组的起始位置
		 * @param arg5 表示第二个参与比较的字节数组的偏移量
		 */
		@Override
		public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,
				int arg4, int arg5) {
			return WritableComparator.compareBytes(arg0, arg1, 8, arg3, arg4, 8);
		}
		
	}
3.2调用分组比较器
	//1.4 TODO 排序、分区
		job.setGroupingComparatorClass(MyGroupingComparator.class);






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值