MAPREDUCE简介

最新推荐文章于 2020-07-25 19:35:00 发布

◢ ◤

最新推荐文章于 2020-07-25 19:35:00 发布

阅读量669

点赞数

本文链接：https://blog.csdn.net/gltncx11/article/details/88604297

版权

MAPREDUCE框架结构及核心运行机制
　　一个完整的mapreduce程序在分布式运行时有三类实例进程：
　　　1.MRAppMaster：负责整个程序的过程调度及状态协调
　　　2.mapTask：负责map阶段的整个数据处理流程
　　　3.ReduceTask：负责reduce阶段的整个数据处理流程
　　　
MAPREDUCE程序运行流程
　　1.一个mr程序启动的时候,最先启动的是MRAppMaster,MRAppMaster启动后根据本次job的描述信息,计算出需要的maptask实例数量,然后向集群申请机器启动相应数量的maptask进程。
　　2.maptask进程启动之后,根据给定的数据切片范围进行数据处理
　　　(1)利用客户指定的inputformat来获取RecordReader读取数据,形成输入KV对(RecordReader的read方法,默认的格式TextInputFormat)　K:默认是mapreduce读到的一行文本的起始偏移量，V:默认是mapreduce读取到的一行文本的内容。
　　　(2)将输入KV对传递给客户定义的map()方法,做逻辑运算,并将map()方法输出的KV对收集到缓存区，(写到OutPutCollector输出收集器,然后到环形缓冲区,环形缓冲区默认超过80%开始溢出,缓冲区中数据分区且有序)。
　　　(3)将缓存中的KV对按照K分区排序后不断溢写到磁盘文件
　　3.MRAppMaster监控到所有maptask进程任务完成之后,会根据客户指定的参数启动相应数量的reducetask进程,并告知reducetask进程要处理的数据范围(数据分区)。
　　4.reducetask进程启动之后,根据MRAppMaster告知的待处理数据所在位置,从若干台maptask运行所在机器上获取到若干个maptask输出结果文件,并在本地进行重新归并排序,然后按照相同key的KV为一个组(调用compareTo方法,比较相邻的k),调用客户定义的reduce方法进行逻辑运算,并收集运算输出的结果KV,然后调用客户指定的OutPutFormat将结果数据输出到外部存储。(RecordWriter的write方法,默认格式是TextOutPutFormat)
　　注意:中间可能伴随有combiner操作,combiner操作运行的前提是不能影响最终的结果,combiner的优点是优化网络之间传输的数据量。
　　maptask并行度(一个split对应一个maptask)
　　　一个job的map阶段并行度由客户端在提交job时决定。
　　　而客户端对map阶段并行度的规划的基本逻辑为：将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据划分成逻辑上的多个split），然后每一个split分配一个mapTask并行实例处理。(由FileInputFormat实现类的getSplit()方法完成切片)。
　　reducetask并行度
　　reducetask的并行度同样影响整个job的执行并发度和执行效率，但与maptask的并发数由切片数决定不同，Reducetask数量的决定是可以直接手动设置：
　　默认值是1,手动设置成4。
　　job.setNumReduceTasks(4);
　　注意： reducetask数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有1个reducetask。
　　尽量不要运行太多的reduce task。对大多数job来说，最好reduce的个数最多和集群中的reduce slots(任务槽)持平，或者比集群的reduce slots小。这个对于小集群而言，尤其重要。
　　Map slots总数=集群节点数×mapred.tasktracker.map.tasks.maximum
　　Reduce slots总数=集群节点数×mapred.tasktracker.reduce.tasks.maximum

	补充:
		1.reduce任务的数量并非由输入数据的大小决定，而是特别指定的。
		  可以设定mapred.tasktracker.map.task.maximum和mapred.tasktracker.reduce.task.maximum属性的值来指定map和reduce的数量
		2.reduce最优个数与集群中可用的reduce任务槽相关，总槽数由节点数乘以每个节点的任务槽
		3.本地作业运行器上，只支持0个或者1个reduce任务
		4.在一个tasktracker上能同时运行的任务数取决于一台机器有多少个处理器，还与相关作业的cpu使用情况有关，
		  经验法则是任务数（包括map和reduce）处理器的比值为1到2.
		5.如果有多个reduce任务，则每个map输出通过哈希函数分区，每个分区对应一个reduce任务
内置数据类型
	BooleanWritable:标准布尔型数值
	ByteWritable:单字节数值
	DoubleWritable:双字节数值
	FloatWritable:浮点数
	IntWritable:整型数
	LongWritable:长整型数
	Text:使用UTF8格式存储的文本
	NullWritable:当<key, value>中的key或value为空时使用

FileInputFormat切片机制
	1.切片定义在InputFormat类中的getSplit()方法
	2.FileInputFormat中默认的切片机制：
	  (1)简单地按照文件的内容长度进行切片
	  (2)切片大小，默认等于block大小
	  (3)切片时不考虑数据集整体，而是逐个针对每一个文件单独切片
		比如待处理数据有两个文件：
			file1.txt    320M
			file2.txt    10M
		经过FileInputFormat的切片机制运算后，形成的切片信息如下：  
			file1.txt.split1--  0~128M
			file1.txt.split2--  128~256M
			file1.txt.split3--  256~320M
			file2.txt.split1--  0~10M
	3.FileInputFormat中切片的大小的参数配置
	通过分析源码，在FileInputFormat中，计算切片大小的逻辑：Math.max(minSize, Math.min(maxSize, blockSize));  切片主要由这几个值来运算决定
		minsize：默认值：1  
			配置参数： mapreduce.input.fileinputformat.split.minsize    
		maxsize：默认值：Long.MAXValue  
			配置参数：mapreduce.input.fileinputformat.split.maxsize
		因此，默认情况下，切片大小=blocksize
		maxsize（切片最大值）：
			参数如果调得比blocksize小，则会让切片变小，而且就等于配置的这个参数的值
		minsize （切片最小值）：
			参数调的比blockSize大，则可以让切片变得比blocksize还大
	选择并发数的影响因素：
		1.运算节点的硬件配置
		2.运算任务的类型：CPU密集型还是IO密集型
		3.运算任务的数据量
	注意
		1.如果有大量小文件,会产生大量的小切片,就会产生大量的maptask运行.
		解决:从源头上解决,文件合并后再上传;如果小文件实在合并不了,可以写一个MapReduce程序先对小文件进行合并;
			 可以用另一种InputForamt:CombinerInputFormat(它可以将多个文件划分到一个切片中)
		2.当切片切割剩下的长度<1.1splitSize是,就直接把直到文件末尾的范围都作为一个切片
Combiner
	1.combiner是MR程序中Mapper和Reducer之外的一种组件
	2.combiner组件的父类就是Reducer
	3.combiner和reducer的区别在于运行的位置：
		Combiner是在每一个maptask所在的节点运行
		Reducer是接收全局所有Mapper的输出结果
	4.combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量
		具体实现步骤
			1.自定义一个combiner继承Reducer，重写reduce方法
			2.在job中设置:job.setCombinerClass(CustomCombiner.class)
	5.combiner能够应用的前提是不能影响最终的业务逻辑,而且，combiner的输出kv应该跟reducer的输入kv类型要对应起来
Shuffle
	1.mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle
	2.shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）
	3.具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序
	
	shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和reduce task节点上完成的，整体来看，分为3个操作
		1.分区partition
		2.Sort根据key排序
			排序（sort）如果你自定义了key的数据类型要求你的类一定是WriteableCompartor的子类，不想继承WriteableCompartor，
			至少实现Writeable，这时你就必须在job上设置排序比较器job.setSortCmpartorClass(MyCompartor.class);
			而MyCompartor.class必须继承RawCompartor的类或子类
		3.Combiner进行局部value的合并
		4.分组
			分组（group）分区时会调用分组器，把同一分区中的相同key的数据对应的value制作成一个iterable，并且会在sort。
			在job上设置分组器。Job.setGroupCompartorClass(MyGroup.class)MyGroup.class必须继承RawCompartor的类跟子类
	详细流程
		1.maptask收集我们的map()方法输出的kv对，放到内存缓冲区中(环形缓冲区)
		2.从内存缓冲区不断溢出本地磁盘文件(这个过程叫做spill)，可能会溢出多个文件(超过80%开始溢出,另外20%内存可以继续写入数据)
		3.多个溢出文件会被合并成大的溢出文件
		4.在溢出过程中,及合并的过程中，都要调用partitoner进行分组和针对key进行排序
		5.reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据
		6.reducetask会取到同一个分区的来自不同maptask的结果文件，reducetask会将这些文件再进行合并（归并排序）
		7.合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程
		 （从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）
		注意:Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快 
		  缓冲区的大小可以通过参数调整,  参数：io.sort.mb  默认100M
Mapreduce中的序列化
	Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系...）,
	不便于在网络中高效传输；所以，hadoop自己开发了一套序列化机制（Writable），精简，高效
		
	代码验证两种序列化差异
		public class TestSeri {
			public static void main(String[] args) throws Exception {
				//定义两个ByteArrayOutputStream，用来接收不同序列化机制的序列化结果
				ByteArrayOutputStream ba = new ByteArrayOutputStream();
				ByteArrayOutputStream ba2 = new ByteArrayOutputStream();

				//定义两个DataOutputStream，用于将普通对象进行jdk标准序列化
				DataOutputStream dout = new DataOutputStream(ba);
				DataOutputStream dout2 = new DataOutputStream(ba2);
				ObjectOutputStream obout = new ObjectOutputStream(dout2);
				//定义两个bean，作为序列化的源对象
				ItemBeanSer itemBeanSer = new ItemBeanSer(1000L, 89.9f);
				ItemBean itemBean = new ItemBean(1000L, 89.9f);

				//用于比较String类型和Text类型的序列化差别
				Text atext = new Text("a");
				// atext.write(dout);
				itemBean.write(dout);

				byte[] byteArray = ba.toByteArray();

				//比较序列化结果
				System.out.println(byteArray.length);
				for (byte b : byteArray) {

					System.out.print(b);
					System.out.print(":");
				}

				System.out.println("-----------------------");

				String astr = "a";
				// dout2.writeUTF(astr);
				obout.writeObject(itemBeanSer);

				byte[] byteArray2 = ba2.toByteArray();
				System.out.println(byteArray2.length);
				for (byte b : byteArray2) {
					System.out.print(b);
					System.out.print(":");
				}
			}
		}
排序
	MR默认的排序规则如下
		1.如果key为封装int的IntWritable类型，那么MapReduce按照数字大小对key排序
		2.如果key为封装为String的Text类型，那么MapReduce按照字典顺序对字符串排序
	总结:
		排序是MR在运行过程中的必经步骤，是MR的天然特性。
		不同的数据类型，排序规则略有不同。
		我们可以利用MR的排序，完成我们的业务需求
partitioner
	Mapreduce中会将map输出的kv对，按照相同key分组，然后分发给不同的reducetask
	  默认的分发规则为：根据key的hashcode%reducetask数来分发
	
	实现
		如果要按照我们自己的需求进行分组，则需要改写数据分发（分组）组件Partitioner
		  自定义一个CustomPartitioner继承抽象类：Partitioner
		然后在job对象中，设置自定义partitioner： job.setPartitionerClass(CustomPartitioner.class)
数据倾斜问题
	数据倾斜在MapReduce编程模型中十分常见,用最通俗易懂的话来说,
	  数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,
	  这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,
	  而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的
	不同的数据字段可能的数据倾斜一般有两种情况:
		1.一种是唯一值非常少，极少数值有非常多的记录值(唯一值少于几千)
		2.一种是唯一值比较多，这个字段的某些值有远远多于其他值的记录数，但是它的占比也小于百分之一或千分之一
	解决方案
		1.增加jvm内存,这适用于第一种情况(唯一值非常少，极少数值有非常多的记录值(唯一值少于几千)),
		  这种情况下,往往只能通过硬件的手段来进行调优,增加jvm内存可以显著的提高运行效率。
		2.增加reduce的个数,这适用于第二种情况(唯一值比较多，这个字段的某些值有远远多于其他值的记录数，
		  但是它的占比也小于百分之一或千分之一),我们知道,这种情况下,最容易造成的结果就是大量相同key被partition到一个分区,
		  从而一个reduce执行了大量的工作,而如果我们增加了reduce的个数,这种情况相对来说会减轻很多,毕竟计算的节点多了,就算工作量还是不均匀的,那也要小很多
		3.自定义分区,这需要用户自己继承partition类,指定分区策略,这种方式效果比较显著
		4.重新设计key,有一种方案是在map阶段时给key加上一个随机数,有了随机数的key就不会被大量的分配到同一节点(小几率),待到reduce后再把随机数去掉即可
		5.使用combinner合并,combinner是在map阶段,reduce之前的一个中间阶段,在这个阶段可以选择性的把大量的相同key数据先进行一个合并,可以看做是local reduce,
		  然后再交给reduce来处理,这样做的好处很多,即减轻了map端向reduce端发送的数据量(减轻了网络带宽),
		  也减轻了map端和reduce端中间的shuffle阶段的数据拉取数量(本地化磁盘IO速率),推荐使用这种方法