Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

最新推荐文章于 2023-10-11 01:26:02 发布

weixin_39979119

最新推荐文章于 2023-10-11 01:26:02 发布

阅读量461

点赞数

分类专栏：大数据文章标签： MR分片处理

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

hdfs写入文件需要把大文件分割成多个块，那么有可能会把文件的某一个行分成在不同的块中；这是一个出现分块的时候。还有个就是我的上篇博文中说到的，在mapreduce处理时，当hdfs分块的block大小大于split设置的最大值时也会分割成多个split分片，相当于对块的进一步切割。但是这两种情况出现的概率都很小。

下面转自：https://blog.csdn.net/appstore81/article/details/15027767

事实上，Hadoop对这种某一行跨两个分片的情况进行了特殊的处理。
通常Hadoop使用的InputSplit是FileSplit，一个FileSplit主要存储了三个信息<path, start, 分片length>。假设根据设置分片大小为100，那么一个250字节大小的文件切分之后，我们会得到如下的FileSplit：
<path, 0, 100>
<path, 100, 100>
<path, 200, 50>
（具体的切分算法可以参考FileInputFormat的实现）

因此，事实上，每个MapReduce程序得到的只是类似<path, 0, 100>的信息。当MapReduce程序开始执行时，会根据path构建一个FSDataInputStream，定位到start，然后开始读取数据。在处理一个FileSplit的最后一行时，当读取到一个FileSplit的最后一个字符时，如果不是换行符，那么会继续读取下一个FileSplit的内容，直到读取到下一个FileSplit的第一个换行符。这样子就保证我们不会得到一个不完整的行了。

那么当MapReduce在处理下一个FileSplit的时候，怎么知道上一个FileSplit有没有已经处理了这个FileSplit的第一行内容？
我们只需要检查一下前一个FileSplit的最后一个字符是不是换行符，如果是，那么当前Split的第一行还没有被处理，如果不是，表示当前Split的第一行已经被处理，我们应该跳过。
在LineRecordReader中，使用了一个很巧妙的方法来实现上述的逻辑，把当前FileSplit的start减一，然后跳过第一行（下面是这个代码片断）。

}else{
if(start!= 0) {
skipFirstLine =true;
--start;
 fileIn.seek(start);
}
in=newLineReader(fileIn, job, recordDelimiter);
 }
if(skipFirstLine) {// skip first line and re-establish "start".
start+=in.readLine(newText(), 0,
(int)Math.min((long)Integer.MAX_VALUE,end-start));
}