hadoop2 java_Hadoop（二）：MapReduce程序（Java）

最新推荐文章于 2023-03-01 01:00:00 发布

zeroF91

最新推荐文章于 2023-03-01 01:00:00 发布

阅读量255

点赞数

文章标签： hadoop2 java

本文链接：https://blog.csdn.net/weixin_31002379/article/details/114173138

版权

本文详细介绍了如何使用Java开发Hadoop MapReduce程序，包括词频统计的示例，涵盖了MapReduce程序的主程序、mapper和reducer的实现，以及程序的编译打包和任务提交过程。

摘要由CSDN通过智能技术生成

Java版本程序开发过程主要包含三个步骤，一是map、reduce程序开发；第二是将程序编译成JAR包；第三使用Hadoop jar命令进行任务提交。

下面拿一个具体的例子进行说明，一个简单的词频统计，输入数据是一个单词文本，输出每个单词的出现个数。

一、MapReduce程序

标准的MapReduce程序包含一个Mapper函数、一个Reducer函数和一个main函数

1、主程序

1 packagehadoop;2 importorg.apache.hadoop.conf.Configuration;　　// 读写和保存各种配置资源3 importorg.apache.hadoop.fs.Path;　　// 保存文件或者目录的路径4 importorg.apache.hadoop.io.IntWritable;　　// hadoop自身定义的整形类5 importorg.apache.hadoop.io.Text;　　// hadoop自身定义的存储字符串的类6 importorg.apache.hadoop.mapreduce.Job;　　// 每个hadoop任务是一个Job7 importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;　　// 读取输入8 importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;　　// 将结果存到输出文件9 importorg.apache.hadoop.util.GenericOptionsParser;　　// 解析hadoop的命里行参数10

11 public classWordCount {12 public static void main(String[] args) throwsException {13 Configuration conf = newConfiguration();　　// 从hadoop配置文件里读取参数14 String[] otherArgs = newGenericOptionsParser(conf, args).getRemainingArgs();　　// 从hadoop命令行读取参数15 if (otherArgs.length != 2) {　　// 从命令行读取的参数正常是两个，分别是输入文件和输出文件的目录16 System.err.println("Usage: wordcount ");17 System.exit(2);18 }19 Job job = new Job(conf, "wordcount");　　// 定义一个新的Job，第一个参数是hadoop配置信息，第二个参数是Job的名字20 job.setJarByClass(WordCount.class);　　// 根据WordCount类的位置设置Jar文件21 job.setMapperClass(WordCountMapper.class);　　// 设置mapper文件22 job.setReducerClass(WordCountReducer.class);　　// 设置reducer文件23 job.setOutputKeyClass(Text.class);　　// 设定输出键的类型24 job.setOutputValueClass(IntWritable.class);　　// 设定输出值的类型25 FileInputFormat.addInputPath(job, new Path(otherArgs[0])); // 设定输入文件26 FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); // 设定输出文件27 System.exit(job.waitForCompletion(true) ? 0 : 1); // 开始执行Job28 }29 }

2、mapper程序

1 packagehadoop;2

3 importjava.io.IOException;4 importjava.util.StringTokenizer;　　// java提供的字符串分隔函数5

6 importorg.apache.hadoop.io.IntWritable;7 importorg.apache.hadoop.io.Text;8 importorg.apache.hadoop.mapreduce.Mapper;　　// hadoop提供的mapper基类，用户在此基础上进行自己的mapper程序开发9

10 public class WordCountMapper extends Mapper{　　// ①11 IntWritable one = new IntWritable(1);12 Text word = newText();13

14 public void map(Object key,Text value,Context context) throwsIOException,InterruptedException{　　// ②15 StringTokenizer itr = newStringTokenizer(value.toString());　　// 将字符串根据空格进行分割(value是Text类型的，所以需要将其转化成String类型进行处理)16 while(itr.hasMoreTokens()){17 word.set(itr.nextToken());18 context.write(word,one);19 }20 }21 }

① Mapper类包含四个参数，分别用来表示输入数据的key类型、value类型、输出数据的key类型和value类型。在本案例中，输入数据只有一个value没有key，所以将key类型设置为了object，值的类型是Text；对于输出数据，key类型是Text，value的类型是IntWritable。

② map方法包含三个参数，分别是输入数据的key类型、value类型和输出数据类型(包含了key和value)

1 packagehadoop;2

3 importjava.io.IOException;4

5 importorg.apache.hadoop.io.IntWritable;6 importorg.apache.hadoop.io.Text;7 importorg.apache.hadoop.mapreduce.Reducer; // Reducer基类8

9 public class WordCountReducer extends Reducer{　　// ①10 IntWritable result = newIntWritable();11 public void reduce(Text key,Iterablevalues,Context context) throwsIOException,InterruptedException{ 　　// ②12 int sum = 0;13 for(IntWritable val:values){14 sum +=val.get();15 }16 result.set(sum);17 context.write(key,result);18 }19

20 }

① 和Mapper类一致，Reducer类同样包含四个参数，分别用来表示输入数据的key类型、value类型、输出数据的key类型和value类型。在本案例中，reducer的输入数据key类型为Text，值的类型是一个IntWritable的list；对于输出数据，key类型是Text，value的类型是IntWritable。

② reduce方法包含三个参数，分别是输入数据的key类型、value类型和输出数据类型(包含了key和value)

mapper阶段的输入 hello world hello hadoop

mapper阶段的输出

reducer阶段的输入 >

reducer阶段的输出

二、编译打包

1、编译(*.java —>*.class)

首先进入代码目录，运行以下命令：

javac -classpath /home/work/usr/hadoop/hadoop-1.2.1/hadoop-core-1.2.1.jar:/home/.../hadoop-1.2.1/lib/commons-cli-1.2.jar

-d ./classes/ ./src/*.java

(1)javac：JDK的命令行编译器

(2)-classpath：设置需要用到的jar包路径，各个jar包之间用":"分隔