RecordReader and InputFormat vs OutputFormat and RecordWriter

最新推荐文章于 2022-09-19 17:09:58 发布

lantianjialiang

最新推荐文章于 2022-09-19 17:09:58 发布

阅读量173

点赞数

分类专栏： Hadoop

4 篇文章 0 订阅

订阅专栏

Thanks Yahoo!

InputFormat从HDFS中读取文件，InputFormat abstract类中有一个方法是getSplits，会返回这么文件要分成几个InputSplit。一般来说一个InputSplit会对应的一个Map task上去。
每个Map task会通过RecordReader来读取InputSplit中的内容，将它们组成成key value的pair，传递给map方法。
然后通过combine和partitioner，将数据缓存（如果数据比较大），等待Reduce task来拿自己的数据。
Reduce task拿到数据后，通过归类和排序后，将结果传递给reduce方法
reduce方法处理完成后，会将自己的结果写入OutputFormat中
在OutputFormat中，有一个getRecordWriter方法，RecordWrite会讲reduce传入的key value pair写入文件
到这里，一个map-reduce 过程结束

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注