Hadoop & Hive
olylakers
这个作者很懒,什么都没留下…
展开
-
Hadoop MapReduce数据流程(上)
本文不涉及MapReduce的原理介绍,只是从源代码的层面讲讲我对Hadoop的MapReduce的执行过程、数据流的一点理解。 首先贴上一张来之于Yahoo Hadoop 教程 的图片 由上图可以看出,在进入Map之前,InputFormat把存储在HDFS的文件进行读取和分割,形成和任务相关的InputSplits,然后RecordReader...2011-06-02 15:27:54 · 150 阅读 · 0 评论 -
Hadoop MapReduce中如何处理跨行Block和UnputSplit
Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,如果被分成两个InputSplit,这样一个InputSplit里面就有一行不完整的数据,那么处理这个InputSplit的Mapper会...2011-06-03 21:41:00 · 176 阅读 · 0 评论