split和block的区别以及maptask和reducetask个数设定

最新推荐文章于 2021-11-02 22:29:54 发布

lijie_cq

最新推荐文章于 2021-11-02 22:29:54 发布

阅读量5.3k

点赞数 8

分类专栏： hadoop 文章标签： mapreduce hadoop hdfs split block

本文链接：https://blog.csdn.net/qq_20641565/article/details/53457622

版权

hadoop 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

split和block的区别：

很多人可能认为在hadoop中的split和block是一样的，可能是因为hadoop在默认情况下split的大小和hdfs文件分块大小是一样而被误导吧。

下面来谈谈他们的区别和联系：
1.split是mapreduce中的概念，而block是hdfs中切块的大小。

2.split的大小时默认和hdfs的block块大小一致，但是可以通过配置文件自己设置：
其中有俩个配置文件（如下）：

--minsize   默认大小为1
mapreduce.input.fileinputformat.split.minsize  

--maxsize   默认大小为Long.MAXValue 
mapreduce.input.fileinputformat.split.maxsize

在mapreduce的FileInputFormat类中有个getSplits() 方法对文件进行split，算法如下：

Math.max(minSize, Math.min(maxSize, blockSize));

1.如果blockSize小于maxSize && blockSize 大于 minSize之间，那么split就是blockSize；

2.如果blockSize小于maxSize && blockSize 小于 minSize之间，那么split就是minSize；

3.如果blockSize大于maxSize && blockSize 大于 minSize之间，那么split就是maxSize；

maptask和reducetask个数设定：

列表内容

1.在hadoop中一个split对应一个maptask，需要改变maptask的个数就需要改变上面所描述的配置。

2.而reducetask的个数可以又自己设定

job.setNumReduceTasks(10);

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lijie_cq

关注关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MR-on-yarn&切片数和map task/reduce task关系&wordcount流程理解&shuffle

wzj_wp的博客

12-20

418

1 .MapReduce on yarn 流程 MapReduce Map 映射 Reduce 聚合 mr on yarn的工作流程分为两步: 1.启动应用程序管理器，申请资源。 2.运行任务，直到任务运行完成。 mr on yarn的工作流程详细分为八步: 1.用户向Yarn提交应用程序（job app application），jar文件、sql；其中包裹ApplicationM...

Hadoop streaming运行python程序如何设置map和reduce的个数（python）

Never-Giveup的博客

01-07

2517

Hadoop Streaming给许多语言（java,scala,python,C等）提供了使用Hadoop和编写Mapreduce的接口。在实际工作中，我选择python来做大数据处理，在编写mapreduce作业时，经常遇到map和reduce的个数怎么设置，因为它们的个数决定着程序运行的效率和一些其它方面的因素（例如对于一个大的数据集，如果使用一个map来处理，很容易造成该节点的内存等不足）...

参与评论您还未登录，请先登录后发表或查看评论

HDFS 块和 Input Splits 的区别与联系

Hadoop技术博文

05-17

817

       相信大家都知道，HDFS 将文件按照一定大小的块进行切割，（我们可以通过 dfs.blocksize...

Block(块)和Split(切片)区别

m0_63518485的博客

11-01

253

一个split 不会包含零点几或者几点几个block，一定是包涵大于等于一个整数个block。一个split 不会包含两个File的block,不会跨越File边界。 split和block的关系是一对多的关系。 map tasks的个数是由split的长度决定的。 ...

Block与split的区别

weixin_62604687的博客

10-28

1345

数据block块：是HDFS数据块，一个大文件丢到HDFS上，会被HDFS切分成指定大小的数据块数据切片（split）：数据切片是逻辑概念只是程序在输入数据时对数据进行标记，不会实际切分数据 eg：假设文件大小为300M,切片大小为100M，block为128M，则第一个block会被切成100M+28M，100M给MapTask，剩余的28M需要网络传输给DataNode2，也就是Namenode2需要切分72M，加上28M才是Datanode2上Maptask上需要的数据，以此类推 ...

MapReduce中mapTask和reduceTask任务数

一只咸鱼的博客

07-04

1010

MapReduce分为map阶段和reduce阶段，两个阶段都是多个任务并行处理 map阶段：MapTask个数为number of splits（输入文件的切分数） reduce阶段：ReduceTask个数为number ofpartition （分区数，有几个分区就会最终输出几个文件） ...

HDFS的Block和切片（split）的区别

why0104的博客

11-02

1478

1.Block（数据块）数据被切分后的一个整体称之为块在Hadoop1中默认大小为64MB，在Hadoop2及其以后默认大小为128MB 同一个文件中，每个数据块大小要一致（不同文件中，块的大小可以不一致。 ...

hadoop08--maptask、reducetask的并行度&数据倾斜问题

戴戴的博客

08-14

849

maptask的并行度 1.maptask：运行map部分的任务，我们就叫做maptask。 2.并行度：同时运行的maptask的任务的个数，一个maptask肯定只运行在一台节点上。 3.例如文件大小是500M：存储为三块： blk_1:0-128 blk_2:128-256 blk_3:256-384 blk_4:384-500 启动一个maptask合适...

Hadoop MapReduce中map任务数量设定详解

DaSen的博客

09-18

4226

首先注意的是在Hadoop Streaming 中可以通过-D mapred.map.tasks=（你想要设定的map数量）来确定map任务的个数， goal_num = mapred.map.tasks 但是这里需要注意的是，只有在这个值大于hadoop中计算的默认个数default_num的时候才会有效，默认个数的计算方式如下： default_num = total_size / b...

hive优化策略之控制map数和reduce数

京东放养的爬虫

06-30

3514

我们可以通过控制map和reduce的数量来平衡资源达到优化程序的目的。一、map数量 map的数量与你输入的文件个数和大小有关，你可以通过set dfs.block.size;来查看集群设置的文件块大小，该参数不能自定义修改。 hive> set dfs.block.size; dfs.block.size=134217728 例如你输入一个文件fil

HDFS的block和切片（split）的区别

lwj15648555813的博客

11-02

228

HDFS的block和切片（split）的区别 split：Split是逻辑意义上的定义。split是把block切分而成的虚拟上的的定义，是MapReduce里的概念. 1. split是MapReduce里的概念，是切片的概念，split是逻辑切片；而block是hdfs中切块的大小，block是物理切块； 2. split的大小在默认的情况下和HDFS的block切块大小一致，为了是MapReduce处理的时候减少由于split和block之间大小不一致，可能会完成多余的网络之间的传输。 ..

HDFS的block和切片（split)的区别

m0_61238627的博客

11-02

1554

HDFS的block和切片（split)的区别 1.split是MapReduce里的概念，是切片的概念，split是逻辑切片，而block是物理切块。 2.split的东西大小在默认的情况下和HDFS的block切块大小一致，为的是MapReduce处理的时候减少由于split和block之间大小不一致，可能会有多余的网络之间的传输。（1）一个文件从本地被上传到HDFS时，会进行分块，块大小默认是64M，同时会产生副本数保存在其他datanode上，默认副本数是3个，课通过配置文件修改（2.

HDFS的block和切片(split)的区别

Guo142326的博客

10-31

1517

先来说一说block(数据块)，HDFS存储数据在adtanode节点，而datanodo节点里是分为一个个block存数据的。大数据可能一个地方放不下，需要被拆开存放，并且拆开存放有利于数据的读取。HDFS文件系统默认block是文件存储最小单位(64MB或128MB)。HDFS支持文件“一次写入多次读取”，实际应用都是只写入数据一次但却读取一次或多次，并且读取速度应能满足流式读取的需要。 block也有如下优势： 1.支持大规模文件存储 2.简化系统设计 3.适合数据备份 4.集中的存储 ..

Map任务个数的设置

nice_wen的博客

11-17

3048

一、FileInputFormat类的输入分片1.1 map任务个数等于split个数在hadoop当中，map任务的个数等于split（分片）的个数，一个split对应一个map。当文件小于split的大小时，一个文件对应一个split；当文件大小超过split时，该文件将被切分成多个split，文件大小除以split得到split个数。 1.2 split大小的设置max（minimu

Hadoop：mapreduce的splitsize和blocksize

weixin_34279579的博客

05-18

245

参考： Hadoop MapReduce中如何处理跨行Block和UnputSplit https://stackoverflow.com/questions/17727468/hadoop-input-split-size-vs-block-size https://stackoverflow.com/questions/30549261/split-size-vs-block...

MapReduce split个数和文件block个数关系

qq_40337206的博客

08-28

876

MapReduce split个数和文件block个数关系粗略计算 cout( block ) = cout( split ) 在文件块为 128M 时，129M文件只有分为一个split。在源码中文件切分规则为：当剩余文件大于split默认值的 110%时，继续切分文件，否则为一个切片。 ...

Hadoop如何计算map数和reduce数

FZ的博客

03-10

488

Hadoop如何计算map数和reduce数 Hadoop在运行一个mapreduce job之前，需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数，当一个job提交时，jobclient首先分析job被拆分的split数量，然后吧job.split文件放置在HDFS中，一个job的MapTask数量就等于split的个数。

hdfs中block和split的区别