黑马程序员--基于Hadoop新版API的MapReduce程序

    -------android培训java培训、期待与您交流! ---------- 

 

众所周知,从Hadoop 0.20.x之后,Hadoop引入了新版的MapReduce API,目前Hadoop已经到了1.0版本,但是网上所有MapReduce教程还是使用的旧版MapReduce API,因此决定研究一下新版API。

首先是准备一下用于MapReduce的源文件,如下所示:
1900,35.3
1900,33.2
....
1905,38.2
1905,37.1
如上所示,记录的是每个年份的温度值,现在要求出每个年份最高的温度值,这是一个典型的MapReduce可以很好处理的问题,在Map阶段,得出[1900,(35.3, 333.2,...)],....[1905, (38.2, 37.1, ....)],然后再通过Reduce阶段求出每个年份最高温度值。
首先是写出MapReduce类,这和旧版API比较类似,但是需要注意的是,这里引用的新包:org.apache.hadoop.mapreduce.*而不是原来的org.apache.hadoop.mapred.*,具体程序如下所示:
package com.bjcic.hadoop.guide;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Reducer.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTptr {
public static class MaxTptrMapper extends Mapper<LongWritable, Text, Text, DoubleWritable> {
@Override
public void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
String[] items = value.toString().split(",");
context.write(new Text(items[0]), new DoubleWritable(Double.parseDouble(items[1])));
}
}
public static class MaxTptrReducer extends Reducer<Text, DoubleWritable, Text, DoubleWritable> {
@Override
public void reduce(Text key, Iterable<DoubleWritable> values, Context context)
throws IOException, InterruptedException {
double maxTptr = Double.MIN_VALUE;
for (DoubleWritable val : values) {
maxTptr = Math.max(val.get(), maxTptr);
}
context.write(key, new DoubleWritable(maxTptr));
}
}
public static void main(String[] argv) {
//JobConf conf = new JobConf(MaxTptr.class);
Job job = null;
try {
job = new Job();
job.setJarByClass(MaxTptr.class);
FileInputFormat.addInputPath(job, new Path("input"));
FileOutputFormat.setOutputPath(job, new Path("output"));
job.setMapperClass(MaxTptrMapper.class);
job.setReducerClass(MaxTptrReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(DoubleWritable.class);
System.exit( job.waitForCompletion(true) ? 0 : 1 );
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
对上面的代码有以下点需要说明:
  1. 扩展基类发生了变化,分别为Mapper和Reducer
  2. 引入了重要的Context类
  3. 提交并运行任务采用的是新类Job而不是旧版本的JobConf
将该源文件连同src目录上传到伪分布式部署的Hadoop机器上,首先需要编译并打包Hadoop任务:
javac -classpath $HADOOP_HOME/hadoop-core-1.0.1.jar -d classes src/com/bjcic/hadoop/guide/MaxTptr.java
jar -cvf ./MaxTptr.jar -C classes/ .
将在当前目录生成MaxTptr.jar。
转到$HADOOP_HOME目录,首先确保Hadoop已经运行在伪分布式模式下,如果没有则启动Hadoop(bin/start-all.sh,注意如果启动不成功,可以先运行bin/hadoop namenode -format)。
上传温度文件到Hadoop的HDFS文件系统中:
$>bin/hadoop dfs -put /data_dir/tempreture.txt input
运行Hadoop任务:
$>bin/hadoop jar MaxTptr.jar com.bjcic.hadoop.guide.MaxTptr input output
从HDFS中取下输出结果:
$>bin/hadoop dfs -get output /data_dir/
此时会在data_dir目录下建立output目录,其中就有生成的结果文件。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值