MapReduce
hadoop分布式离线计算
阿东在路上
这个作者很懒,什么都没留下…
展开
-
MapRedurce框架原理之InputFormat实例
1.TextInputFormat 是默认的FileInputFormat实现类。按行读取每条数据。key是存储该行在整个文件中的起始字节偏移量,(LongWriter类型)。value是该行内容,不包括终止符,(Text类型)。 切片方法采用FileInputFormat的切片方法,(K,V)方法为LineRecordReader; 如: asdfdgagads asfsaggrh 切片后: (0,asdfdgagad...原创 2020-05-30 20:58:01 · 164 阅读 · 0 评论 -
MapReduce工作流程
1图片来源尚硅谷大数据课程 MapReduce流程一MapReduce流程二 流程: 1:MapTask收集从map()方法写出的(k,v)对,由outputCollector收集写入环形缓冲区。 2:环形缓冲区默认大小100M,内存占满80%开始反向,并不断溢写出本地文件,结果可能产生多个溢写文件。 (环形缓冲区内实现快排,溢写出的文件均内部有序,第一次排序,算法:快排) 3:环形缓冲区产生的多个溢写文件,通过Merge实现合并,第二次排序,算法:归并排序 4:多个MapTask产生...原创 2020-06-06 17:34:15 · 359 阅读 · 0 评论