测试Hadoop环境:版本 2.6.0
本篇文章主要侧重于亲自实践一个Mapreduce程序在Hadoop上运行,如果需要详细了解测试用到的MapReduce程序的详细内 容,建议翻阅《HADOOP权威指南》。
第一步:确保HADOOP环境已经搭建成功
HADOOP环境的搭建不是本篇的重点,实际上独立(或本地)模式的环境还是比较好搭建的,可以用如下命令测试:
hadoop version
作为第一个简单的MapReduce程序,我们使用独立(或本地)模式的环境测试。简要介绍一下Hadoop的三种运行模式:
(1)独立(或本地)模式:无需运行任何守护进程,所有程序都在同一个JVM上执行。在独立模式下测试和调试 MapReduce程序很方便,因此该模式在开发阶段比较合适。
(2)伪分布模式:Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。
(3)全分布模式:Hadoop守护进程运行在一个集群上。
在特定模式下运行Hadoop需要关注两个因素:正确设置属性和启动Hadoop守护进程。下表列举了配置各种模式的所需要的最小属性集合。
表1. 不同模式的关键配置属性
组件名称 | 属性名称 | 独立模式 | 伪分布模式 | 全分布模式 |
Common | fs.defaultFS | file:///(默认) | hdfs://localhost/ | hadfs://namenode/ |
HDFS | dfs.replication | N/A | 1 | 3(默认) |
MapReduce | mapreduce.framework.name | local(默认) | Yarn | yarn |
YARN | yarn.resourcemanager.hostname yarn.nodemanager.auxservices | N/A N/A | Localhost mapreduce_shuffle | resourcemanager mapreduce_shuffle |
在独立模式下,将使用本地文件系统和本地MapReduce作业运行器,在分布式模式下,将启用HDFS和YARN守护进程,此外还需配置MapReduce以便能够使用YARN。
Hadoop的各个组件均可以利用XML文件进行配置,core-site.xml 文件用于配置通用(common)属性,hdfs-site.xml用于配置HDFS属性,mapred-site.xml 文件用于配置MapReduce属性,yarn-site.xml文件用于配置YARN属性。这4个配置文件对应上面表1,都放在etc/hadoop子目录中(hadoop安装或者解压的目录)。
配置结果如下(依据表1仅配置了符合独立模式的最小属性集合):
(如果之前已经配置过Hadoop环境,并且不是独立模式,请注意备份配置文件)
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>file:///</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value></value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>local</value>
</property>
</configuration>
我自己的配置文件 yarn-site.xml 中原本是有伪分布式的配置内容的,考虑到独立不是不会用到YARN,所以并没有按照表1的配置去修改,还是保留原来的配置内容,最后结果也确实是没有影响。
至此,独立模式的Hadoop模式已经配置完毕。
第二步:编写MapReduce程序
MapReduce程序主要由三部分组成:一个map程序、一个reduce程序以及以及一些用来运行作业的代码。
本次测试的程序是根据《Hadoop权威指南》第四版中的例子,主要是从一些气象站样本数据中找到每年的最高气温,代码结构就是一个map程序 即MaxTemperatureMapper.java,一个reduce程序 即 MaxTemperatureReducer.java ,还有一个作业运行程序,即 MaxTemperature.java 。下面是三个java程序。
(本人在按照书上的代码进行编写并测试,发现书上的代码有一些问题,比如书上的代码Mapper类写法为
extends MapreduceBase ,同时书中代码中的import的一些包也是无法编译通过的。最终通过该书的官网下载得到最新的可编译通过的代码。附上地址:https://github.com/tomwhite/hadoop-book ,本次测试作业的样本数据也可从网站获得)
第一部分:MaxTemperatureMapper.java
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class MaxTemperatureMapper
extends Mapper<LongWritable, Text, Text, IntWritable> {
private static final int MISSING = 9999;
@Override
public void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
String line = value.toString();
String year = line.substring(15, 19);
int airTemperature;
if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
airTemperature = Integer.parseInt(line.substring(88, 92));
} else {
airTemperature = Integer.parseInt(line.substring(87, 92));
}
String quality = line.substring(92, 93);
if (airTemperature != MISSING && quality.matches("[01459]")) {
context.write(new Text(year), new IntWritable(airTemperature));
}
}
}
第二部分:MaxTemperatureReducer.java
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class MaxTemperatureReducer
extends Reducer<Text, IntWritable, Text, IntWritable> {
@Override
public void reduce(Text key, Iterable<IntWritable> values,
Context context)
throws IOException, InterruptedException {
int maxValue = Integer.MIN_VALUE;
for (IntWritable value : values) {
maxValue = Math.max(maxValue, value.get());
}
context.write(key, new IntWritable(maxValue));
}
}
第三部分:MaxTemperature.java
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class MaxTemperature {
public static void main(String[] args) throws Exception {
if (args.length != 2) {
System.err.println("Usage: MaxTemperature <input path> <output path>");
System.exit(-1);
}
Job job = new Job();
job.setJarByClass(MaxTemperature.class);
job.setJobName("Max temperature");
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.setMapperClass(MaxTemperatureMapper.class);
job.setReducerClass(MaxTemperatureReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
简单归纳一下第三部分的代码(即作业驱动程序):
Job对象指定作业执行规范,我们可以用它控制整个作业的运行。大致流程为:
--> 函数参数检测,构建Job对象 (作业的控制者)
--> setJarByClass()方法指定作业(主程序)入口
--> FileInputFormat类的静态方法addInputPath()指定输入数据路径,FileOutputFormat类的静态方法setOutputPath指定输 出的数据路径
--> 通过 setMapperClass() 和 setReduceClass() 方法指定要用的 map类型 和 reduce类型
--> 指定reduce函数的输出类型(必需和Reduce类的输出相匹配)
--> 如果mapper 输出的类型和reducer的不相同,则需要设置map的输出类型(本例输出类型相同,故没有单独设置)
--> 输入类型通过输入格式控制,我们的例子没有设置,因为采用了默认的TextInputFormat(文本输入格式)
--> Job的waitForCompletion()方法提交作业并等待执行完成(true参数指示作业会把详细进度信息输出到控制台)。
第三步:打包并执行
作为一个简单的测试程序,没有使用MVN等打包工具,直接使用了javac 编译程序,jar -cvf 命令进行打包。
编译程序之前要注意的点是编译类路径的配置,否则会出现“找不到包”的错误。具体步骤如下:
在~/.bashrc 文件中添加如下配置:
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
执行 source .bashrc 使之生效。
将上面的三个java程序放入同一个目录下,编译 javac *.java 生成三个class文件,然后在本目录下,通过命令:
jar -cvf max-temperature.jar *.class
打包成jar包,以便后续再Hadoop上进行测试执行。
这里的jar包名称是没有明确规定的,在Job对象的setJarByClass()方法传递一个类名即可(例如本例的为 job.setJarByClass(MaxTemperatrue.class))Hadoop利用这个类来查找包含他 的JAR文件,进而找到相关的JAR文件。
job.setJarByClass(MaxTemperature.class)
下一步将应用类添加到类路径中,我们定义了一个HADOOP_CLASSPATH环境变量,然后由Hadoop脚本来执行。
export HADOOP_CLASSPATH=max-temperature.jar
执行我们的测试程序:
hadoop MaxTemperature sample.txt output
sample.txt 是放在和jar包统一目录下的测试样例数据,output为程序运行结果的目录,注意,output目录如果已经存在,则程序会报错,这样是为了保证程序的数据不会被覆盖,也就是程序结果的完整性。下面测试output已经存在的请款
如果没有报错,会有如下的结果:
输出的最后一部分,以Counters为标题,显示Hadoop上运行的每个作业的一些统计信息,这些信息对于检测数据是否按照预期进行处理非常有用。比如,我们可以查看到5个Mapper输入对应5个输出(由于每个mapper对每一个合法的输入记录产生一个输出记录)
最后在同一目录下会生成结果目录output(当然也是可以自己配置输出路径):
查看output目录下的结果文件:
其中 part-r-00000 中存放的是我们的结果数据,_SUCCESS仅作为成功的标识符。
可以看到结果数据和预期的一致。
本身代码的逻辑并不复杂,但是本人在实践过程中还是遇到一些小问题,“眼过千遍,不如手过一遍”,希望大家也可以动手实践起来,毕竟这是一门实践的艺术 ^_^
附上 sample.txt 测试样例数据(从文中的官网同样可以下载)
0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+99999999999
0043011990999991950051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+00221+99999999999
0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999
0043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+01111+99999999999
0043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+00781+99999999999
参考资料:《HADOOP权威指南》第四版