MapReduce(3)

最新推荐文章于 2022-01-03 18:01:24 发布

hyl910503

最新推荐文章于 2022-01-03 18:01:24 发布

阅读量434

点赞数

文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/hyl910503/article/details/103757199

版权

自定义InputFormat
自定义步骤：
1、自定义一个类继承FileInputFormat
2、改写recurdReader,实现一次读取一个完整文件放置为ky
3、在输出时使用SequenceFileOutputFomat输出合并文件
无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。

将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。
1、自定义一个类继承FileInputFormat
（1）重写is视频里table（）方法，返回false不可切割
（2）重写createRecorder(),创建自定义的recordReader对象，并初始化
2、改写recordReader，实现一次读取一个完整文件封装为kv
(1)采用io流一次读取一个文件输出到value中，因为设置了不可切片，最终把所有文件都封装到了value
(2)获取文件路径信息+名称，并设置key
3、设置Driver

Mapreduce工作流程

在这里插入图片描述

1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
3）多个溢出文件会被合并成大的溢出文件
4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
6）ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对G

最低0.47元/天解锁文章

hyl910503

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce(3)

自定义InputFormat自定义步骤：1、自定义一个类继承FileInputFormat2、改写recurdReader,实现一次读取一个完整文件放置为ky3、在输出时使用SequenceFileOutputFomat输出合并文件无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义InputFormat...
复制链接

扫一扫

MapReduce(3)

“相关推荐”对你有帮助么？