浅谈MapReduce经典案例之wordcount

最新推荐文章于 2024-04-02 15:58:10 发布

小木筏

最新推荐文章于 2024-04-02 15:58:10 发布

阅读量482

点赞数 3

分类专栏：大数据Hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/qq_44093764/article/details/106956070

版权

大数据Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop是由Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到由Google Lab 开发的Map/Reduce 和Google File System(GFS)的启发，而正式落地。

Hadoop最核心的设计便是HDFS和MapReduce。

Hadoop最底层的HDFS(Hadoop Distributed File System)是一个大型的分布式文件系统，为海量数据的存储提供了可能性及高可靠性。

而其离线分布式并行运算框架MapReduce,更是以千军万马之力并行处理、计算海量数据，为数据的处理、分析提供了强大的算力支持。

今天，我们就来以wordcount为例，谈谈MapReduce的基本编程模型及其工作原理。

首先，我们来解释一下什么是框架：

框架，是为解决某一个或某一类问题而开发的产品，我们使用别人提供的稳定、成熟的框架一般只需要使用框架提供的类、函数，就可实现全部功能，能极大提高开发效率和时间。

在使用框架的时候，必须使用这个框架的全部代码，同时它又是一个半成品软件，因为它其中的关键代码是空缺的，需要使用者自己实现才能实现框架的完整功能。

那么MapReduce既然是一个编程模型框架,我们使用者要如何做才能用它来解决问题呢？

MapReduce解决问题有两个阶段：

1)Map阶段：

面对的是杂乱无章的原始数据、文件，它解析每个记录，封装提取数据成key/value对，并对数据进行部分逻辑处理。

2)Reduce阶段：

通过Map的处理，得到的都是已经归纳好的数据了，在此基础上我们可以做进一步的处理以便得到结果。

用户编写的程序分成三个部分：Mapper，Reducer，Driver

1.Mapper阶段
1）用户自定义的Mapper要继承自己的父类
2）Mapper的输入数据是KV对的形式（KV的类型可自定义）
3）Mapper中的业务逻辑写在map()方法中
4）Mapper的输出数据是KV对的形式（KV的类型可自定义）
5）map()方法对每一个<K,V>调用一次

2.Reducer阶段
1）用户自定义的Reducer要继承自己的父类
2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV
3）Reducer的业务逻辑写在reduce()方法中
4）Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法

3.Driver阶段
MapReduce程序的入口，整个程序需要一个Drvier来进行提交，提交的是一个描述了各种必要信息的job对象。

wordcount案例

假定我们有一个文本，如图：

《You Have Only One Life》

我们可以看到是英文文本，并且是以空格分隔。

我们有这样一个需求：

要求计算出文本中每个单词的出现次数。

MapReduce流程、原理

在这里插入图片描述

从图中我们可以清楚知道MapReduce内部是如何工作的：

1)首先，读取文件，每一次读取一行，解析成key/value对，默认key是该行的起始偏移量，value是该行的内容。

2)将value按照指定的分隔符切分，这里是用空格切分的，并将每个单词计数1.

3)将Map结果写入缓存。

4)shuffle阶段，这里先不谈，shuffle较复杂。

5)Reduce读取Map输出结果作为自己的输入。

6)Reduce进行分组。按照key相同的，分为一组。

7)将value值迭代累加，最后写出。

编码实现

Mapper

package wcCount_test;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMap extends Mapper<LongWritable, Text,Text, IntWritable> {
    Text k = new Text();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    
        //转成string类型
        String line = values.toString();//英文
        //String line = new String(value.getBytes(),0,value.getLength(),"GBK");中文
        
        //按空格切分
        String[] words = line.split(" ");

        //将每个单词遍历，并将其计数1，然后写出
        for(String word:words){
            k.set(word);
            context.write(k,new IntWritable(1));
        }

    }
}

Reducer

package wcCount_test;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;



public class WordCountReduce extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
    
        int sum = 0;
        //将key相同的一组，value累加
        for(IntWritable value :values){
            sum += value.get();

        }
        //写出
        context.write(key,new IntWritable(sum));
    }
}

Driver

package wcCount_test;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

   public class  WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        args = new String[]{"C:\\Users\\administered\\Desktop\\testpro\\word.txt","C:\\Users\\administered\\Desktop\\testpro\\result"};

        //获取配置信息
        Configuration con = new Configuration();
        Job job = Job.getInstance(con);
        
        //设置驱动类
        job.setJarByClass(WordCountDriver.class);
        //设置Mapper类
        job.setMapperClass(WordCountMap.class);
        //设置Reducer类
        job.setReducerClass(WordCountReduce.class);

        //设置Mapper输出的key value类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //设置Mapper输出的key value类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //设置文件输入、输出路径
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        job.waitForCompletion(true);

    }
}

至此，wordcount案例结束，

最后，有什么疑惑可以在下方留言讨论，

谢谢支持！

小木筏

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
浅谈MapReduce经典案例之wordcount

Hadoop是由Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到由Google Lab 开发的Map/Reduce 和Google File System(GFS)的启发，而正式落地。Hadoop最核心的设计便是HDFS和MapReduce。Hadoop最底层的HDFS(Hadoop Distributed File System)是一个大型的分布式文件系统，为海量数据的存储提供了可能性及高可靠性。而其离线分布式并
复制链接

扫一扫