动手实现第一个Hadoop程序(VMware)

测试Hadoop环境:版本 2.6.0

 本篇文章主要侧重于亲自实践一个Mapreduce程序在Hadoop上运行,如果需要详细了解测试用到的MapReduce程序的详细内  容,建议翻阅《HADOOP权威指南》。

 第一步:确保HADOOP环境已经搭建成功

              HADOOP环境的搭建不是本篇的重点,实际上独立(或本地)模式的环境还是比较好搭建的,可以用如下命令测试:

hadoop version

 作为第一个简单的MapReduce程序,我们使用独立(或本地)模式的环境测试。简要介绍一下Hadoop的三种运行模式:

    (1)独立(或本地)模式:无需运行任何守护进程,所有程序都在同一个JVM上执行。在独立模式下测试和调试                                                                MapReduce程序很方便,因此该模式在开发阶段比较合适。

    (2)伪分布模式:Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。

    (3)全分布模式:Hadoop守护进程运行在一个集群上。

在特定模式下运行Hadoop需要关注两个因素:正确设置属性和启动Hadoop守护进程。下表列举了配置各种模式的所需要的最小属性集合。

表1. 不同模式的关键配置属性

组件名称属性名称独立模式伪分布模式全分布模式
Commonfs.defaultFSfile:///(默认)hdfs://localhost/hadfs://namenode/
HDFSdfs.replicationN/A13(默认)
MapReducemapreduce.framework.namelocal(默认)Yarnyarn
YARN

yarn.resourcemanager.hostname

yarn.nodemanager.auxservices

N/A

N/A

Localhost

mapreduce_shuffle

resourcemanager

mapreduce_shuffle

在独立模式下,将使用本地文件系统和本地MapReduce作业运行器,在分布式模式下,将启用HDFS和YARN守护进程,此外还需配置MapReduce以便能够使用YARN。

Hadoop的各个组件均可以利用XML文件进行配置,core-site.xml 文件用于配置通用(common)属性,hdfs-site.xml用于配置HDFS属性,mapred-site.xml 文件用于配置MapReduce属性,yarn-site.xml文件用于配置YARN属性。这4个配置文件对应上面表1,都放在etc/hadoop子目录中(hadoop安装或者解压的目录)。

配置结果如下(依据表1仅配置了符合独立模式的最小属性集合):

(如果之前已经配置过Hadoop环境,并且不是独立模式,请注意备份配置文件)

core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>file:///</value>
        </property>
</configuration>

hdfs-site.xml 

<configuration>
    <property>
        <name>dfs.replication</name>
        <value></value>
    </property>
</configuration>

mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>local</value>
    </property>
</configuration>

我自己的配置文件 yarn-site.xml 中原本是有伪分布式的配置内容的,考虑到独立不是不会用到YARN,所以并没有按照表1的配置去修改,还是保留原来的配置内容,最后结果也确实是没有影响。

至此,独立模式的Hadoop模式已经配置完毕。

 第二步:编写MapReduce程序

MapReduce程序主要由三部分组成:一个map程序、一个reduce程序以及以及一些用来运行作业的代码。

本次测试的程序是根据《Hadoop权威指南》第四版中的例子,主要是从一些气象站样本数据中找到每年的最高气温,代码结构就是一个map程序 即MaxTemperatureMapper.java,一个reduce程序 即 MaxTemperatureReducer.java  ,还有一个作业运行程序,即 MaxTemperature.java 。下面是三个java程序。

(本人在按照书上的代码进行编写并测试,发现书上的代码有一些问题,比如书上的代码Mapper类写法为

extends MapreduceBase ,同时书中代码中的import的一些包也是无法编译通过的。最终通过该书的官网下载得到最新的可编译通过的代码。附上地址:https://github.com/tomwhite/hadoop-book ,本次测试作业的样本数据也可从网站获得)

第一部分:MaxTemperatureMapper.java

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MaxTemperatureMapper
  extends Mapper<LongWritable, Text, Text, IntWritable> {

  private static final int MISSING = 9999;
  
  @Override
  public void map(LongWritable key, Text value, Context context)
      throws IOException, InterruptedException {
    
    String line = value.toString();
    String year = line.substring(15, 19);
    int airTemperature;
    if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
      airTemperature = Integer.parseInt(line.substring(88, 92));
    } else {
      airTemperature = Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (airTemperature != MISSING && quality.matches("[01459]")) {
      context.write(new Text(year), new IntWritable(airTemperature));
    }
  }
}
第二部分:MaxTemperatureReducer.java 
import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaxTemperatureReducer
  extends Reducer<Text, IntWritable, Text, IntWritable> {
  
  @Override
  public void reduce(Text key, Iterable<IntWritable> values,
      Context context)
      throws IOException, InterruptedException {
    
    int maxValue = Integer.MIN_VALUE;
    for (IntWritable value : values) {
      maxValue = Math.max(maxValue, value.get());
    }
    context.write(key, new IntWritable(maxValue));
  }
}
第三部分:MaxTemperature.java 
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTemperature {

  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperature <input path> <output path>");
      System.exit(-1);
    }
    
    Job job = new Job();
    job.setJarByClass(MaxTemperature.class);
    job.setJobName("Max temperature");

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setReducerClass(MaxTemperatureReducer.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

 简单归纳一下第三部分的代码(即作业驱动程序):

  Job对象指定作业执行规范,我们可以用它控制整个作业的运行。大致流程为:

  --> 函数参数检测,构建Job对象 (作业的控制者)

  --> setJarByClass()方法指定作业(主程序)入口

  --> FileInputFormat类的静态方法addInputPath()指定输入数据路径,FileOutputFormat类的静态方法setOutputPath指定输          出的数据路径 

  --> 通过 setMapperClass() 和 setReduceClass() 方法指定要用的 map类型 和 reduce类型 

  --> 指定reduce函数的输出类型(必需和Reduce类的输出相匹配)

  --> 如果mapper 输出的类型和reducer的不相同,则需要设置map的输出类型(本例输出类型相同,故没有单独设置) 

  --> 输入类型通过输入格式控制,我们的例子没有设置,因为采用了默认的TextInputFormat(文本输入格式)

  --> Job的waitForCompletion()方法提交作业并等待执行完成(true参数指示作业会把详细进度信息输出到控制台)。

第三步:打包并执行

  作为一个简单的测试程序,没有使用MVN等打包工具,直接使用了javac 编译程序,jar -cvf 命令进行打包。

  编译程序之前要注意的点是编译类路径的配置,否则会出现“找不到包”的错误。具体步骤如下:

  在~/.bashrc 文件中添加如下配置:

export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

  执行 source .bashrc 使之生效。

  将上面的三个java程序放入同一个目录下,编译 javac  *.java 生成三个class文件,然后在本目录下,通过命令:

jar -cvf max-temperature.jar *.class

  打包成jar包,以便后续再Hadoop上进行测试执行。

  这里的jar包名称是没有明确规定的,在Job对象的setJarByClass()方法传递一个类名即可(例如本例的为                                    job.setJarByClass(MaxTemperatrue.class))Hadoop利用这个类来查找包含他   的JAR文件,进而找到相关的JAR文件。

job.setJarByClass(MaxTemperature.class)
下一步将应用类添加到类路径中,我们定义了一个HADOOP_CLASSPATH环境变量,然后由Hadoop脚本来执行。
 export HADOOP_CLASSPATH=max-temperature.jar

执行我们的测试程序:

hadoop MaxTemperature sample.txt output

sample.txt 是放在和jar包统一目录下的测试样例数据,output为程序运行结果的目录,注意,output目录如果已经存在,则程序会报错,这样是为了保证程序的数据不会被覆盖,也就是程序结果的完整性。下面测试output已经存在的请款


如果没有报错,会有如下的结果:


输出的最后一部分,以Counters为标题,显示Hadoop上运行的每个作业的一些统计信息,这些信息对于检测数据是否按照预期进行处理非常有用。比如,我们可以查看到5个Mapper输入对应5个输出(由于每个mapper对每一个合法的输入记录产生一个输出记录)


最后在同一目录下会生成结果目录output(当然也是可以自己配置输出路径):


查看output目录下的结果文件:


其中 part-r-00000 中存放的是我们的结果数据,_SUCCESS仅作为成功的标识符。


可以看到结果数据和预期的一致。


本身代码的逻辑并不复杂,但是本人在实践过程中还是遇到一些小问题,“眼过千遍,不如手过一遍”,希望大家也可以动手实践起来,毕竟这是一门实践的艺术 ^_^

附上 sample.txt 测试样例数据(从文中的官网同样可以下载)

0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+99999999999
0043011990999991950051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+00221+99999999999
0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999
0043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+01111+99999999999
0043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+00781+99999999999

参考资料:《HADOOP权威指南》第四版

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值