mapreduce中的split(分片)问题

最新推荐文章于 2023-12-30 17:26:36 发布

alain898

最新推荐文章于 2023-12-30 17:26:36 发布

阅读量3.4k

点赞数

分类专栏： hadoop源码阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alain898/article/details/9167389

版权

本文深入解析Hadoop MapReduce中的Split逻辑，强调Split是按文件内容进行划分，与HDFS Block无直接设计关系。Split仅记录文件起始位置、长度和首个Block所在主机，而LineRecordReader按行读取数据。尽管两者在物理存储上有交叉，但在程序设计逻辑上独立。通常，选择Split大小为Block大小的1/N（N为正整数），以优化数据流动和执行效率。

摘要由CSDN通过智能技术生成

//这是hadoop1.0.4中LineRecordReader.java中的一段代码

public void initialize(InputSplit genericSplit,

TaskAttemptContext context) throws IOException {

FileSplit split = (FileSplit) genericSplit;

Configuration job = context.getConfiguration();

this.maxLineLength = job.getInt("mapred.linerecordreader.maxlength",

Integer.MAX_VALUE);

start = split.getStart();

end = start + split.getLength();

final Path file = split.getPath();

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

alain898 CSDN认证博客专家 CSDN认证企业博客

码龄12年

12: 原创

64万+: 周排名

58万+: 总排名

1万+: 访问

: 等级

302: 积分

1: 粉丝

0: 获赞

3: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

mapreduce中的split(分片)问题
Mr-zhou 回复 alain898: 嗯如果不是文件的第一个split 跳过首行并减一个字符定是新split要处理的开始。
mapreduce中的split(分片)问题
alain898 回复 Mr-zhou: 因为map任务在读文件的时候是一行一行读的，它要保证"一行"的完整性。所以，如果有一行数据（记为Line_A）一部分在前一个分片(记为Split_A)中，一部分在后一个分片(记为记为Split_B)中，那么Split_B中开头的属于Line_A的部分字节就一定会被处理Split_A分片的map任务读取并处理，所以处理Split_B的map任务是不需要处理这部分数据的。我这里摘录的程序段只是一个函数，不是map任务读数据的全部细节。如果你想知道具体的细节，可以读相关的源码。程序下面的文字只是为了说明split和block这两个概念在程序设计逻辑方面的联系，以方便自己将这两个概念弄清楚而已。上面这段程序帮我想明白了这点，但是这段文字并不是为了解释上面这段程序。呵呵，解释的不好，希望您能原谅。
mapreduce中的split(分片)问题
Mr-zhou: 请问你下面这几行是如何理解出来的呢？我看了你写的，也没弄明白 } else {//输入文件是非压缩文件，对于非压缩文件，跳过第一行，因为第一行在前一个split中已读过 if (start != 0) {//如果split分界点位于一行的某个字节中，那么这行就已经在上个split中被读过 skipFirstLine = true;//故可以跳过这一行了 --start;//如果恰好行分界点与split分界点相同，就先向前移动一个字符，这样就回到上一行了 fileIn.seek(start);//因此也需要跳过这行

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。