Mapper以及Reducer抽象类详细介绍

最新推荐文章于 2023-06-08 18:59:00 发布

KILITOH

最新推荐文章于 2023-06-08 18:59:00 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/KILITOH/article/details/103134890

版权

为了开发MapReduce程序，一共可以分为以上八个步骤，其中每个步骤都是一个class类，通过job对象将程序组装成一个任务提交即可。为了简化MapReduce程序的开发，每一个步骤的class类，都有一个既定的父类，直接继承即可，因此可以大大简化MapReduce程序的开发难度，也可以快速的实现功能开发。
MapReduce编程当中，其中最重要的两个步骤就是Mapper类和Reducer类

1、Mapper抽象类的基本介绍

在 hadoop2.x 当中 Mapper 类是一个抽象类，工程师只想要覆写一个 java 类，继承自 Mapper 类即可，然后重写里面的一些方法，就可以实现特定的功能，接下来介绍一些 Mapper 类当中比较重要的四个方法：

setup 方法：
Mapper 类当中的初始方法，程序中一些对象的初始化工作都可以放到这个方法里面来实现
map 方法：
读取的每一行数据，都会来调用一次 map 方法，这个方法也是最重要的方法，可以通过这种方法来实现每一条数据的处理。
cleanup 方法：
在整个 maptask 执行完成之后，会马上调用 cleanup 方法，整个方法主要是做一些清理工作，列如连接的断开，资源的关闭等等。
run 方法：
如果需要更精细的控制整个 MapTask 的执行，那么可以覆写这个方法，实现对所有的 MapTask 更精确的操作控制

Reducer抽象类基本介绍

同样的道理，在hadoop2.x当中，reducer 类也是一个抽象类，抽象类允许工程师可以继承这个抽象类之后，重新覆写抽象类当中的方法，实现逻辑的自定义控制。接下来也来介绍一下 Reducer 抽象类当中的四个抽象方法：

setup 方法：
在 ReduceTask 初始化之后马上调用，一些对象的初始化工作，可以在这个类当中实现
reduce 方法：
所有从 MapTask 发送过来的数据，都会调用 Reduce 方法，这个方法也是 Reduce 当中最重要的方法，可以通过这个方法实现数据的处理
cleanup 方法：
在整个 ReduceTask 执行完成之后，会马上调用 cleanup 方法，这个方法主要就是在 Reduce 阶段做一些清理工作，列如连接的断开，资源的关闭等等
run方法：
如果需要更精细的控制整个 ReduceTask 的执行，那么可以覆写这个方法，实现对所有的 ReduceTask 更精确的操作控制

KILITOH

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Mapper以及Reducer抽象类详细介绍

为了开发MapReduce程序，一共可以分为以上八个步骤，其中每个步骤都是一个class类，通过job对象将程序组装成一个任务提交即可。为了简化MapReduce程序的开发，每一个步骤的class类，都有一个既定的父类，直接继承即可，因此可以大大简化MapReduce程序的开发难度，也可以快速的实现功能开发。MapReduce编程当中，其中最重要的两个步骤就是Mapper类和Reducer类1...
复制链接

扫一扫