一.MapReduce2.0编程模型
关于MR编程模型请参考上一篇:【Hadoop入门学习系列之四】MapReduce 2.0应用场景和原理、基本架构和编程模型
二.MapReduce2.0编程接口
三种编程方式
Java(最原始的方式)
Java编程接口组成;
旧API所在java包:org.apache.hadoop.mapred
新API所在java包 :org.apache.hadoop.mapreduce新API具有更好的扩展性;
两种编程接口只是暴露给用户的形式不同而已,内部执行引擎是一样的;
旧API可以完全兼容Hadoop 2.0,但新API不行从hadoop 1.0.0开始,所有发行版均包含新旧 两类API;
Hadoop Streaming(支持多语言)
与Linux管道机制一致
通过标准输入输出实现进程间通信
标准输入输出是任何语言都有的
几个举例:
cat 1.txt | grep “ dong” | sort
cat 1.txt | python grep.py | java sort.jar