动手实现第一个Hadoop程序(VMware)

最新推荐文章于 2021-04-22 00:35:57 发布

ITrue的天空

最新推荐文章于 2021-04-22 00:35:57 发布

阅读量329

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/Arch_zly/article/details/79719167

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

测试Hadoop环境：版本 2.6.0

本篇文章主要侧重于亲自实践一个Mapreduce程序在Hadoop上运行，如果需要详细了解测试用到的MapReduce程序的详细内容，建议翻阅《HADOOP权威指南》。

第一步：确保HADOOP环境已经搭建成功

HADOOP环境的搭建不是本篇的重点，实际上独立（或本地）模式的环境还是比较好搭建的，可以用如下命令测试：

hadoop version

作为第一个简单的MapReduce程序，我们使用独立（或本地）模式的环境测试。简要介绍一下Hadoop的三种运行模式：

（1）独立（或本地）模式：无需运行任何守护进程，所有程序都在同一个JVM上执行。在独立模式下测试和调试 MapReduce程序很方便，因此该模式在开发阶段比较合适。

（2）伪分布模式：Hadoop守护进程运行在本地机器上，模拟一个小规模的集群。

（3）全分布模式：Hadoop守护进程运行在一个集群上。

在特定模式下运行Hadoop需要关注两个因素：正确设置属性和启动Hadoop守护进程。下表列举了配置各种模式的所需要的最小属性集合。

表1. 不同模式的关键配置属性

组件名称	属性名称	独立模式	伪分布模式	全分布模式
Common	fs.defaultFS	file:///（默认）	hdfs://localhost/	hadfs://namenode/
HDFS	dfs.replication	N/A	1	3（默认）
MapReduce	mapreduce.framework.name	local（默认）	Yarn	yarn
YARN	yarn.resourcemanager.hostname yarn.nodemanager.auxservices	N/A N/A	Localhost mapreduce_shuffle	resourcemanager mapreduce_shuffle

在独立模式下，将使用本地文件系统和本地MapReduce作业运行器，在分布式模式下，将启用HDFS和YARN守护进程，此外还需配置MapReduce以便能够使用YARN。

Hadoop的各个组件均可以利用XML文件进行配置，core-site.xml 文件用于配置通用（common）属性，hdfs-site.xml用于配置HDFS属性，mapred-site.xml 文件用于配置MapReduce属性，yarn-site.xml文件用于配置YARN属性。这4个配置文件对应上面表1，都放在etc/hadoop子目录中（hadoop安装或者解压的目录）。

配置结果如下（依据表1仅配置了符合独立模式的最小属性集合）：

（如果之前已经配置过Hadoop环境，并且不是独立模式，请注意备份配置文件）

core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>file:///</value>
        </property>
</configuration>

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value></value>
    </property>
</configuration>

mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>local</value>
    </property>
</configuration>

我自己的配置文件 yarn-site.xml 中原本是有伪分布式的配置内容的，考虑到独立不是不会用到YARN，所以并没有按照表1的配置去修改，还是保留原来的配置内容，最后结果也确实是没有影响。

至此，独立模式的Hadoop模式已经配置完毕。

第二步：编写MapReduce程序

MapReduce程序主要由三部分组成：一个map程序、一个reduce程序以及以及一些用来运行作业的代码。

本次测试的程序是根据《Hadoop权威指南》第四版中的例子，主要是从一些气象站样本数据中找到每年的最高气温，代码结构就是一个map程序即MaxTemperatureMapper.java，一个reduce程序即 MaxTemperatureReducer.java ，还有一个作业运行程序，即 MaxTemperature.java 。下面是三个java程序。

（本人在按照书上的代码进行编写并测试，发现书上的代码有一些问题，比如书上的代码Mapper类写法为

extends MapreduceBase ，同时书中代码中的import的一些包也是无法编译通过的。最终通过该书的官网下载得到最新的可编译通过的代码。附上地址：https://github.com/tomwhite/hadoop-book ，本次测试作业的样本数据也可从网站获得）

第一部分：MaxTemperatureMapper.java

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MaxTemperatureMapper
  extends Mapper<LongWritable, Text, Text, IntWritable> {

  private static final int MISSING = 9999;
  
  @Override
  public void map(LongWritable key, Text value, Context context)
      throws IOException, InterruptedException {
    
    String line = value.toString();
    String year = line.substring(15, 19);
    int airTemperature;
    if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
      airTemperature = Integer.parseInt(line.substring(88, 92));
    } else {
      airTemperature = Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (airTemperature != MISSING && quality.matches("[01459]")) {
      context.write(new Text(year), new IntWritable(airTemperature));
    }
  }
}

第二部分：MaxTemperatureReducer.java

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaxTemperatureReducer
  extends Reducer<Text, IntWritable, Text, IntWritable> {
  
  @Override
  public void reduce(Text key, Iterable<IntWritable> values,
      Context context)
      throws IOException, InterruptedException {
    
    int maxValue = Integer.MIN_VALUE;
    for (IntWritable value : values) {
      maxValue = Math.max(maxValue, value.get());
    }
    context.write(key, new IntWritable(maxValue));
  }
}

第三部分：MaxTemperature.java

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTemperature {

  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperature <input path> <output path>");
      System.exit(-1);
    }
    
    Job job = new Job();
    job.setJarByClass(MaxTemperature.class);
    job.setJobName("Max temperature");

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setReducerClass(MaxTemperatureReducer.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

简单归纳一下第三部分的代码（即作业驱动程序）：

Job对象指定作业执行规范，我们可以用它控制整个作业的运行。大致流程为：

--> 函数参数检测，构建Job对象（作业的控制者）

--> setJarByClass()方法指定作业（主程序）入口

--> FileInputFormat类的静态方法addInputPath()指定输入数据路径,FileOutputFormat类的静态方法setOutputPath指定输出的数据路径

--> 通过 setMapperClass() 和 setReduceClass() 方法指定要用的 map类型和 reduce类型

--> 指定reduce函数的输出类型（必需和Reduce类的输出相匹配）

--> 如果mapper 输出的类型和reducer的不相同，则需要设置map的输出类型（本例输出类型相同，故没有单独设置）

--> 输入类型通过输入格式控制，我们的例子没有设置，因为采用了默认的TextInputFormat（文本输入格式）

--> Job的waitForCompletion()方法提交作业并等待执行完成（true参数指示作业会把详细进度信息输出到控制台）。

第三步：打包并执行

作为一个简单的测试程序，没有使用MVN等打包工具，直接使用了javac 编译程序，jar -cvf 命令进行打包。

编译程序之前要注意的点是编译类路径的配置，否则会出现“找不到包”的错误。具体步骤如下：

在~/.bashrc 文件中添加如下配置：

export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

执行 source .bashrc 使之生效。

将上面的三个java程序放入同一个目录下，编译 javac *.java 生成三个class文件，然后在本目录下，通过命令：

jar -cvf max-temperature.jar *.class

打包成jar包，以便后续再Hadoop上进行测试执行。

这里的jar包名称是没有明确规定的，在Job对象的setJarByClass()方法传递一个类名即可（例如本例的为 job.setJarByClass(MaxTemperatrue.class)）Hadoop利用这个类来查找包含他的JAR文件，进而找到相关的JAR文件。

job.setJarByClass(MaxTemperature.class)

下一步将应用类添加到类路径中，我们定义了一个HADOOP_CLASSPATH环境变量，然后由Hadoop脚本来执行。

 export HADOOP_CLASSPATH=max-temperature.jar

执行我们的测试程序：

hadoop MaxTemperature sample.txt output

sample.txt 是放在和jar包统一目录下的测试样例数据，output为程序运行结果的目录，注意，output目录如果已经存在，则程序会报错，这样是为了保证程序的数据不会被覆盖，也就是程序结果的完整性。下面测试output已经存在的请款

如果没有报错，会有如下的结果：

输出的最后一部分，以Counters为标题，显示Hadoop上运行的每个作业的一些统计信息，这些信息对于检测数据是否按照预期进行处理非常有用。比如，我们可以查看到5个Mapper输入对应5个输出（由于每个mapper对每一个合法的输入记录产生一个输出记录）

最后在同一目录下会生成结果目录output（当然也是可以自己配置输出路径）：

查看output目录下的结果文件：

其中 part-r-00000 中存放的是我们的结果数据，_SUCCESS仅作为成功的标识符。

可以看到结果数据和预期的一致。

本身代码的逻辑并不复杂，但是本人在实践过程中还是遇到一些小问题，“眼过千遍，不如手过一遍”，希望大家也可以动手实践起来，毕竟这是一门实践的艺术 ^_^

附上 sample.txt 测试样例数据（从文中的官网同样可以下载）

0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+99999999999
0043011990999991950051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+00221+99999999999
0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999
0043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+01111+99999999999
0043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+00781+99999999999

参考资料：《HADOOP权威指南》第四版