Hadoop MapReduce JAVA API

最新推荐文章于 2024-04-01 22:51:01 发布

iteye_9286

最新推荐文章于 2024-04-01 22:51:01 发布

阅读量160

点赞数

分类专栏： hadoop初级文章标签：大数据 java 运维

hadoop初级专栏收录该内容

7 篇文章 0 订阅

订阅专栏

第一部分：开始云计算之旅

第二部分：初识Hadoop

第三部分：Hadoop 环境安装部署

第四部分：Hadoop Shell 基本操作介绍

第五部分：Hadoop 分布式文件系统1

第五部分：Hadoop 分布式文件系统2

第五部分：Hadoop 分布式文件系统3

第六部分：MapReduce 开发1

第六部分：MapReduce 开发2

第七部分：Hadoop集群的安装

第一部分：Word Count 程序讲解

•编写一个MapReduce 程序的步骤

–编写一个Mapper类

–编写一个Reducer类

–编写一个Driver类（即Job），来将Mapper与Reducer类来进行组合。

java代码：

Mapper

public class WordMapper extends MapReduceBase implements
		Mapper<LongWritable, Text, Text, IntWritable> {
	private final static IntWritable one = new IntWritable(1);
	private Text word = new Text();
	@Override
	public void map(LongWritable key, Text value,OutputCollector<Text, IntWritable> output, Reporter reporter)
			throws IOException {
		String line = value.toString();
		 for(String word : s.split("\\W+")){
                            if(word.length()>0){
 		        output.collect(new Text(word),new IntWritable(1));
  	                 }
                        }	
            }
}

java代码：

Reducer

public class WordReducer extends MapReduceBase implements
Reducer<Text, IntWritable, Text, IntWritable>{
	
	@Override
	public void reduce(Text key, Iterator<IntWritable> values,OutputCollector<Text, IntWritable> output, Reporter reporter)
			throws IOException {
		Int sum = 0;
		while (values.hasNext()) {
			sum += values.next().get()+sum;
		}
		output.collect(key, new IntWritable(sum));
	}

}

第二部分：Mapper API 介绍

•老版Mapper API

– org.apache.hadoop.mapred Interface Mapper<K1,V1,K2,V2>

•新版Mapper API

– org.apache.hadoop.mapreduce Class Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>

第三部分：Reducer API 介绍

•老版 Reducer API

– org.apache.hadoop.mapred Interface Reducer<K2,V2,K3,V3>

•新版 Reducer API

– org.apache.hadoop.mapreduce Class Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT>

第四部分：Job运行模式

•MapReduce程序可以以以下三种模式运行

–

–Local(Standalone) Mode：只有一个 Java 虚拟机在跑，完全没有分布式的成分。且不使用HDFS文件系统，而是使用本机的Linux文件系统。

–Pseudo-distributed Mode：在同一台机器上启动独立数个 JVM 进程，每一个hadoop daemon运行在一个单独的JVM进程中，进行“伪分布式”操作。

–Fully-distributed Mode：真正的可以运行于多台机器上的分布式模式。其中， Standalone mode 使用local filesystem 以及 local MapReducer job runner， Distributed mode 使用HDFS 以及 MapReduce daemons

•对应的配置文件 conf/core-site.xml：

为Hadoop设定默认的文件系统

<configuration>

<property>

<name> fs.default.name </name>

<value> VALUE </value>

</property>

</configuration>

Standalone mode: VALUE=file:///

Pseudo-distributed mode: VALUE=hdfs://localhost:9000

Fully-Distributed mode： VALUE=hdfs://namenode

•对应的配置文件 conf/mapred-site.xml