hadoop应用实例代码_Hadoop之MapReduce程序基础实验

最新推荐文章于 2024-06-08 01:05:36 发布

weixin_39752800

最新推荐文章于 2024-06-08 01:05:36 发布

阅读量1k

点赞数

文章标签： hadoop应用实例代码

本文链接：https://blog.csdn.net/weixin_39752800/article/details/113076084

版权

本文介绍了Hadoop MapReduce的基础，用于大规模数据并行计算。通过MapReduce的“分而治之”思想，讲解了Map和Reduce阶段的工作原理。实验目的是熟悉MapReduce程序编写，通过编写Mapper、Reducer和主程序，完成单词计数任务。实验在CentOS7.4的云服务器上进行，使用IntelliJ IDEA创建Maven项目，最后将jar包部署到Hadoop集群，统计HDFS文件中的单词数量。

摘要由CSDN通过智能技术生成

点击上方蓝色字关注我们！

基

础

实

验

Hadoop中的HDFS解决了分布式文件存储的问题。本文将介绍Hadoop中的MapReduce，主要用于解决大规模并行计算的问题。

MapReduce是一种编程模型，用于大规模数据集的并行计算。

MapReduce采用了“分而治之”的思想。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理；Reduce负责“合”，即对Map阶段的结果进行全局汇总。

MapReduce中定义了如下的Map和Reduce两个抽象的编程接口，由用户去编程实现:

Map: (k1; v1) → [(k2; v2)]

Reduce: (k2; [v2]) → [(k3; v3)]

MapReduce程序执行过程

MapReduce程序的执行过程主要分为三步：Map阶段、Shuffle阶段、Reduce阶段，如下图所示。

Map阶段：Map阶段的输入通常是HDFS上文件，在运行Mapper前，FileInputFormat会将输入文件分割成多个split。对输入分片中的每个“键值对”调用map()函数进行运算，然后输出一个结果键值对。

Shuffle阶段： Shuffle阶段所处的位置是Map阶段输出之后，Reduce任务接收前。主要是对Map的输出数据进行处理，形成一定的有规则的数据文件集，以便Reduce任务进行接收。

Reduce阶段：Shuffle阶段最终生成了一个有序的数据文件作为Reduce的输入，对于该文件中的每一个“键值对”调用reduce()方法，并将结果写到HDFS中。

实验目的

熟悉MapReduce程序的编写步骤

通过编写Mapper类、Reducer类、程序执行类，完成单词计数的任务。

实验环境

云服务器1台：(华为云、阿里云、腾讯云等等均可)

操作系统：CentOS7.4 64位

系统配置：2核4G以上

感谢华为云提供云服务器支持！

实验步骤

新建IntelliJ IDEA下的maven项目

点击File->New->Project，在弹出的对话框中选择Maven
JDK选择相应的版本，点击Next
填写Maven的GroupId和ArtifactId，可以随便填写
项目名可填写MapReduce
编辑pom.xml添加依赖及build配置参数

   <dependencies>
        <dependency>
            <groupId>commons-beanutilsgroupId>
            <artifactId>commons-beanutilsartifactId>
            <version>1.9.3version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-mapreduce-client-jobclientartifactId>
            <version>2.8.5version>
            <scope>providedscope>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-mapreduce-client-coreartifactId>
            <version>2.8.5version>
        dependency>
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-commonartifactId>
            <version>2.8.5version>
        dependency>    
        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-hdfsartifactId>
            <version>2.8.5version>
        dependency>
    dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-pluginartifactId>
                <version>2.3.2version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                configuration>
            plugin>
            <plugin>
                <artifactId>maven-assembly-plugin artifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>com.myhadoop.WordCountmainClass>
                        manifest>
                    archive>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

编写代码

1、编写Maper类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    private Text k = new Text();
    private IntWritable v = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] words = value.toString().split(" ");
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

2、编写Reducer类

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable v = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }
        v.set(sum);
        context.write(key,v);
    }
}

3、编写程序执行主类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class WordCount {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //构建Configuration实例
        Configuration configuration = new Configuration();
        //其他配置信息

        //获得Job实例
        Job job = Job.getInstance(configuration,"My WordCount Job");
        job.setJarByClass(WordCount.class);

        //设置Mapper和Reducer处理类
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);

        //设置Mapper和Reducer的输入输出格式
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //设置输出结果的数据格式
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //指定输入和输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //提交任务，true为提交成功，如果为true打印0，为false打印1
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);

    }
}

打包发布

1、在终端执行如下命令编译jar包

mvn clean package

2、jar包打完之后打开左侧target文件夹，发现有两个jar包，把无依赖的jar包复制到hadoop-node1节点内

3、在hadoop-node1节点下执行命令

hadoop jar jar包名 classname

hadoop jar mapreduce-1.0-SNAPSHOT.jar com.myhadoop.WordCount /input /output

统计HDFS中/input目录内文件含有的单词数量，输出到output目录

计算结果保存到HDFS中/output/part-r-00000文件

END

每天进步一点点

让我知道你在看

weixin_39752800

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop应用实例代码_Hadoop之MapReduce程序基础实验

点击上方蓝色字关注我们！基础实验Hadoop中的HDFS解决了分布式文件存储的问题。本文将介绍Hadoop中的MapReduce，主要用于解决大规模并行计算的问题。MapReduce是一种编程模型，用于大规模数据集的并行计算。MapReduce采用了“分而治之”的思想。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理；Reduce负责“合”，即对Map阶段的结果进行全...
复制链接

扫一扫