Hadoop中Context类的作用和Mapper＜LongWritable, Text, Text, LongWritable＞.Context context是怎么回事【笔记自用】

最新推荐文章于 2024-09-09 08:32:19 发布

#姚大姚

最新推荐文章于 2024-09-09 08:32:19 发布

阅读量2.5k

点赞数 3

分类专栏： hadoop 文章标签： java 大数据

本文链接：https://blog.csdn.net/qq_42402648/article/details/116358806

版权

hadoop 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

问题导读：
1.Context能干什么？
2.你对Context类了解多少？
3.Context在mapreduce中的作用是什么？

下面我们通过来源码，来得到Context的作用：

下面主要对Setup函数进行深入探讨：首先看下两个程序的区别：
在这里插入图片描述

区别在于第一个程序把 context这个上下文对象作为map函数的参数传到map函数中，第二个程序则是在setup函数中处理了 context对象，从这个角度讲，在Map类的实例中是可以拿到Context这个上下文对象的，这一点是毋庸置疑的，不管是在类内部的哪个函数中使用都可以，既然是这样，那么讨论的重点就是map这个类中方法的声明及执行了，所以分析下Mapper类的源代码：

在这里插入图片描述
在mapper类中，只对这个方法进行了声明，也就是说它的子类可以重新实现这个方法，这一点很容易理解的。

下面从源码级分析下整个mapper类的结构和hadoop在设计这个类时的巧妙之处：

Map的主要任务就是把输入的key value转换为指定的中间结果（其实也是key value），这个类主要包括了四个函数：

在这里插入图片描述

Setup一般是在执行map函数前做一些准备工作，map是主要的数据处理函数，cleanup则是在map执行完成后做一些清理工作和finally字句的作用很像，下面看一下run方法：

在这里插入图片描述

这个方法调用了上面的三个函数，组成了setup-map-cleanup这样的执行序列，这一点和设计模式中的模版模式很类似，当然在这里我们也可以改写它的源码，比如可以在map的时候增加多线程，这样可以对map任务做进一步的优化，从以上的分析可以很清楚的知道setup函数的作用了。

下面为run方法：

  /**
   * Expert users can override this method for more complete control over the
   * execution of the Mapper.
   * @param context
   * @throws IOException
   */
  public void run(Context context) throws IOException, InterruptedException {
    setup(context);
    try {
      while (context.nextKeyValue()) {
        map(context.getCurrentKey(), context.getCurrentValue(), context);
      }
    } finally {
      cleanup(context);
    }
  }

从上面run方法可以看出，K/V对是从传入的Context获取的。我们也可以从下面的map方法看出，输出结果K/V对也是通过Context来完成的。

在这里插入图片描述
那么上文中提到的Context对象是怎么回事呢？

在这里插入图片描述
原来它是mapper的一个内部类，简单的说顶级接口是为了在map或是reduce任务中跟踪task的状态，很自然的MapContext就是记录了map执行的上下文，在mapper类中，这个context可以存储一些job conf的信息，比如习题一中的运行时参数等，我们可以在map函数中处理这个信息，这也是hadoop中参数传递中一个很经典的例子，同时context作为了map和reduce执行中各个函数的一个桥梁，这个设计和java
web中的session对象、application对象很相似。