Hadoop 新旧API对比

最新推荐文章于 2021-08-22 21:50:31 发布

代码_李

最新推荐文章于 2021-08-22 21:50:31 发布

阅读量290

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/limengliang4007/article/details/78608937

版权

Hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

新增的Java MapReduce API

Hadoop的版本0.20.0包含有一个新的 Java MapReduce API，有时也称为"上下文对象"(context object)，旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API，所以，需要重写以前的应用程序才能使新的API发挥作用。

新增的API 和旧的API 之间，有下面几个明显的区别。

新的API 倾向于使用虚类，而不是接口，因为这更容易扩展。例如，可以无需修改类的实现而在虚类中添加一个方法(即用默认的实现)。在新的API 中， mapper 和reducer现在都是虚类。

新的API 放在org.apache.hadoop.mapreduce 包(和子包)中。之前版本的API 依旧放在org.apache.hadoop.mapred中。

新的API充分使用上下文对象，使用户代码能与MapReduce系统通信。例如，MapContext 基本具备了JobConf、OutputCollector和Reporter的功能。

新的API 同时支持"推"(push)和"拉"(pull)式的迭代。这两类API，均可以将键/值对记录推给mapper，但除此之外，新的API 也允许把记录从map()方法中拉出。对reducer来说是一样的。"拉"式处理数据的好处是可以实现数据的批量处理，而非逐条记录地处理。

新增的API实现了配置的统一。旧API 通过一个特殊的JobConf 对象配置作业，该对象是Hadoop配置对象的一个扩展 (用于配置守护进程，详情请参见第130页的"API配置"小节)。在新的API 中，我们丢弃这种区分，所有作业的配置均通过Configuration 来完成。

新API中作业控制由Job类实现，而非JobClient类，新API中删除了JobClient类。

输出文件的命名方式稍有不同。map的输出文件名为part-m-nnnnn，而reduce的输出为part-r-nnnnn(其中nnnnn表示分块序号，为整数，且从0开始算)。

例2-6 显示了使用新API 重写的MaxTemperature应用。不同之处已加粗显示。

将旧API写的Mapper和Reducer类转换为新API时，记住将map()和reduce()的签名转换为新形式。如果只是将类的继承修改为对新的Mapper和Reducer类的继承，编译的时候也不会报错或显示警告信息，因为新的Mapper和Reducer类同样也提供了等价的map()和reduce()函数。但是，自己写的mapper或reducer代码是不会被调用的，这会导致难以诊断的错误。

代码_李

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 新旧API对比

新增的Java MapReduce APIHadoop的版本0.20.0包含有一个新的 Java MapReduce API，有时也称为"上下文对象"(context object)，旨在使API在今后更容易扩展。新的API 在类型上不兼容先前的API，所以，需要重写以前的应用程序才能使新的API发挥作用。新增的API 和旧的API 之间，有下面几个明显的区别。
复制链接

扫一扫

专栏目录