hadoop应用实例代码_Hadoop之MapReduce程序基础实验

本文介绍了Hadoop MapReduce的基础,用于大规模数据并行计算。通过MapReduce的“分而治之”思想,讲解了Map和Reduce阶段的工作原理。实验目的是熟悉MapReduce程序编写,通过编写Mapper、Reducer和主程序,完成单词计数任务。实验在CentOS7.4的云服务器上进行,使用IntelliJ IDEA创建Maven项目,最后将jar包部署到Hadoop集群,统计HDFS文件中的单词数量。
摘要由CSDN通过智能技术生成
点击上方蓝色字关注我们!

Hadoop中的HDFS解决了分布式文件存储的问题。本文将介绍Hadoop中的MapReduce,主要用于解决大规模并行计算的问题。

MapReduce是一种编程模型,用于大规模数据集的并行计算。

MapReduce采用了“分而治之”的思想。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理;Reduce负责“合”,即对Map阶段的结果进行全局汇总。

MapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:

Map: (k1; v1) → [(k2; v2)]

Reduce: (k2; [v2]) → [(k3; v3)]

MapReduce程序执行过程

MapReduce程序的执行过程主要分为三步:Map阶段、Shuffle阶段、Reduce阶段,如下图所示。

6088c65d1988304b25eeb5a12b815ed9.png

Map阶段:Map阶段的输入通常是HDFS上文件,在运行Mapper前,FileInputFormat会将输入文件分割成多个split。对输入分片中的每个“键值对”调用map()函数进行运算,然后输出一个结果键值对。

Shuffle阶段: Shuffle阶段所处的位置是Map阶段输出之后,Reduce任务接收前。主要是对Map的输出数据进行处理,形成一定的有规则的数据文件集,以便Reduce任务进行接收。

Reduce阶段:Shuffle阶段最终生成了一个有序的数据文件作为Reduce的输入,对于该文件中的每一个“键值对”调用reduce()方法,并将结果写到HDFS中。

01

实验目的

熟悉MapReduce程序的编写步骤

通过编写Mapper类、Reducer类、程序执行类,完成单词计数的任务。

02

实验环境

云服务器1台:(华为云、阿里云、腾讯云等等均可)

操作系统:CentOS7.4 64位

系统配置:2核4G以上

感谢华为云提供云服务器支持!

03

实验步骤

6ce9c64f8b269b18a5d11a4494c8c9b4.gif

01

新建IntelliJ IDEA下的maven项目

  • 点击File->New->Project,在弹出的对话框中选择Maven

  • JDK选择相应的版本,点击Next

  • 填写Maven的GroupIdArtifactId,可以随便填写

  • 项目名可填写MapReduce

  • 编辑pom.xml添加依赖及build配置参数

   <dependencies>
        <dependency>
            <groupId>commons-beanutilsgroupId>
            <artifactId>commons-beanutilsartifactId>
            <version>1.9.3version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-mapreduce-client-jobclientartifactId>
            <version>2.8.5version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-mapreduce-client-coreartifactId>
            <version>2.8.5version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-commonartifactId>
            <version>2.8.5version>
        dependency>    
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-hdfsartifactId>
            <version>2.8.5version>
        dependency>
    dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-pluginartifactId>
                <version>2.3.2version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                configuration>
            plugin>
            <plugin>
                <artifactId>maven-assembly-plugin artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>com.myhadoop.WordCountmainClass>
                        manifest>
                    archive>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

02

编写代码

1、编写Maper类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    private Text k = new Text();
    private IntWritable v = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] words = value.toString().split(" ");
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

2、编写Reducer类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable v = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }
        v.set(sum);
        context.write(key,v);
    }
}

3、编写程序执行主类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class WordCount {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //构建Configuration实例
        Configuration configuration = new Configuration();
        //其他配置信息

        //获得Job实例
        Job job = Job.getInstance(configuration,"My WordCount Job");
        job.setJarByClass(WordCount.class);

        //设置Mapper和Reducer处理类
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);

        //设置Mapper和Reducer的输入输出格式
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //设置输出结果的数据格式
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //指定输入和输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //提交任务,true为提交成功,如果为true打印0,为false打印1
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);

    }
}

03

打包发布

1、在终端执行如下命令编译jar包

mvn clean package

fb6dec383dec4618c8e111b8f6ec322c.png

2、jar包打完之后打开左侧target文件夹,发现有两个jar包,把无依赖的jar包复制到hadoop-node1节点内

27e0e3ab8ce372502ac98dac72a9b395.png

3、在hadoop-node1节点下执行命令

hadoop jar   jar包名  classname

hadoop jar mapreduce-1.0-SNAPSHOT.jar com.myhadoop.WordCount /input /output

统计HDFS中/input目录内文件含有的单词数量,输出到output目录

08d9b51c48b0b91bcd64982e609b08bc.png

fa0492acaa792988cf72a4f2dd3162ae.png

 计算结果保存到HDFS中/output/part-r-00000文件

69eaa96b4e1ca8ddabcba767011f25f2.png

6bf913f63e6db218cf195efb9f68338b.gif ab9487311eb7484aa23fbb46af341ea4.gif 224676746f9291214f808a186799da1c.gif 

END

5f2556914372f8a40833121cd6db0a0f.png 每天进步一点点

a61a40a7852e2f99923eaa1470102633.png

让我知道你在看

5bf2f9461c98102117af2d1bd5691b46.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值