Mapreduce框架-MapTask工作原理

MapTask的工作原理

1 map文件切割

splitsize的大小。分片是按照splitsize的大小进行的,默认情况下,splitsize的大小等同于hdfs的block大小。但可以通过参数调节。
splitsize=Math.max(minSize,Math.min(maxSize,blockSize))
其中:mapreduce配置文件配置。
minSize =mapreduce.input.fileinputformat.split.minsize //默认配置0
maxSize = mapreduce.input.fileinputformat.split.maxsize //默认配置是256m

默认情况下:minSize<block<maxsize,所以切割的大小默认和block相同。如果改变minSize和maxsize的大小可以条件切割的大小。

2 MapTask任务启动的数量

启动多少个Maptask任务,是由切片的个数决定。
如果map阶段的输入文件切割为3个切片,就会启动3个并行的MapTask任务,分别来处理每以个切片的切割工作。

3 MapTask对输入文件切割的基本思路

(1)默认一次读取一行内容
(2)对行的内容进行字符串切割。
(3)mapTask切割后的结果为单个内容和数字,以K,V方式输出。
总之,mapTask切割文件内容的操作,是由开发人员根据业务需求编写的map程序决定的。

4 mapTask任务输出的结果的处理【重要】

(1)mapTask结果使用OutputCollector收集。输出的结果收集器。
(2)结果收集器将数据存放到一个环形缓冲区。环形缓冲区默认大小100m。当环形缓冲区的数据达到一定的比例阈值(默认是80%),就会写出。
环形缓冲区数据写出来的过程,叫溢出。
(3)数据写入磁盘之前,先进行分区,然后排序。
(4)数据写入磁盘临时文件。文件的数量和分区数相同,并且内容是排好序的。

5 mapTask溢出分区处理

mapTask的结果如果都写入同一个文件,reduceTask的数量是多个,reduceTask就会出现抢夺maptask输出资源,或者多个reduceTask不清楚如何分配处理maptask输出的资源文件。
maptask的默认分区的方式是根据reduceTask的数量分区。输出结果hash与分区数量求余,得到结果所在的分区。
假设有3个reduceTask,溢出的分区就会有3个分区。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
假设我们有一个天气数据集,每个记录包含日期、城市、最高温度和最低温度。我们想要统计每个城市在每个月的平均最高温度和平均最低温度,我们可以使用MapReduce进行分组统计。 首先,我们需要定义Mapper函数的输入和输出。Mapper函数的输入应该是文本行,每行表示一个天气记录,包含日期、城市、最高温度和最低温度,以逗号分隔。Mapper函数的输出应该是键值对,其中键是由城市和月份组成的复合键,值是一个包含最高温度和最低温度的可序列化对象。 伪代码如下: ```python Mapper(输入: key, value): 解析输入行,获取城市、日期、最高温度和最低温度 从日期中提取出月份 构造复合键,由城市和月份组成 构造值对象,包含最高温度和最低温度 发射键值对,以复合键为键,值对象为值 ``` 接下来,我们需要定义Reducer函数的输入和输出。Reducer函数的输入应该是键值对,其中键是由城市和月份组成的复合键,值是一个包含最高温度和最低温度的可序列化对象的迭代器。Reducer函数的输出应该是键值对,其中键是由城市和月份组成的复合键,值是一个包含平均最高温度和平均最低温度的可序列化对象。 伪代码如下: ```python Reducer(输入: key, values): 计算所有值的平均最高温度和平均最低温度 构造值对象,包含平均最高温度和平均最低温度 发射键值对,以复合键为键,值对象为值 ``` 最后,我们需要运行MapReduce作业。我们可以使用Hadoop Streaming工具,通过标准输入和输出来传递数据。假设我们的Mapper函数定义在mapper.py文件中,Reducer函数定义在reducer.py文件中,我们可以使用以下命令来运行作业: ```bash hadoop jar hadoop-streaming.jar \ -mapper mapper.py \ -reducer reducer.py \ -input input_file \ -output output_dir ``` 其中,hadoop-streaming.jar是Hadoop Streaming工具的JAR文件;mapper.py和reducer.py是我们定义的Mapper和Reducer函数;input_file是输入文件的路径;output_dir是输出目录的路径。 通过这种方式,我们可以使用MapReduce分组统计天气信息,并且可以方便地扩展到更大的数据集和更复杂的统计任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值