hadoop中map数量的确定及host的选择

最新推荐文章于 2024-05-14 21:01:43 发布

Master___Huang

最新推荐文章于 2024-05-14 21:01:43 发布

阅读量931

点赞数 1

分类专栏： Hadoop 文章标签： Haoop MapReduce Map数量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MastetHuang/article/details/52778628

版权

Hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一:准备知识

InputFormat接口:主要用于描述数据的格式,有两个功能,一个是数据切分,另外一个是为Mapper提供输入数据

InputFormat其中一个实现基类是FileInputFormat,今天来学习一下FileInputFormat的实现,其中有两个核心算法,一个是文件切分算法,一个是主机选择算法

二:map数量的确定

文件切分算法:用于确定InputSplit的个数以及每个Inputsplit对应的数据段

InputSplit的个数由一下三个属性共同决定

goalSize:根据用户期望的inputsplit数量决定,goalsize = totalsize / numSplit,totalsize是总文件大小,numsplit是用户设置的map task 个数,默认情况下为1.

minSize: inputsplit的最小值,有配置参数mapred.min.split.size确定,默认为1

blockSize:HDFS中block的大小,默认64M

splitSize = max{minSize,min{goalSize,blockSize}}

计算例子:minsize = 128MB,用户期望的numsplit为2,totalSize = 250MB,计算splitSize

首先计算goalSize = total/2 = 128MB

min{goalSize,blockSize} = 64MB

因此, splitSize = max{minSize,min{goalSize,blockSize}} = 128M,故InputSplit的数量为2

三:host的确定

首先计算每个rack中含有InputSplit的大小(不要计算相同的数据),根据大小进行排序,在按照rack内部的node包含的数据量进行node排序,最后取前N个node作为host列表(N为副本数)

当使用基于FileInputFormat实现InputFormat时,为了提高Map Task的数据本地性,应尽量使inputSplit大小与block的大小相同

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop中map数量的确定及host的选择

hadoop中map数量的确定及host的选择
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。