浅谈MapReduce经典案例之wordcount

Hadoop是由Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到由Google Lab 开发的Map/Reduce 和Google File System(GFS)的启发,而正式落地。

Hadoop最核心的设计便是HDFS和MapReduce。

Hadoop最底层的HDFS(Hadoop Distributed File System)是一个大型的分布式文件系统,为海量数据的存储提供了可能性及高可靠性。

而其离线分布式并行运算框架MapReduce,更是以千军万马之力并行处理、计算海量数据,为数据的处理、分析提供了强大的算力支持。

今天,我们就来以wordcount为例,谈谈MapReduce的基本编程模型及其工作原理。

首先,我们来解释一下什么是框架:

框架,是为解决某一个或某一类问题而开发的产品,我们使用别人提供的稳定、成熟的框架一般只需要使用框架提供的类、函数,就可实现全部功能,能极大提高开发效率和时间。

在使用框架的时候,必须使用这个框架的全部代码,同时它又是一个半成品软件,因为它其中的关键代码是空缺的,需要使用者自己实现才能实现框架的完整功能。

那么MapReduce既然是一个编程模型框架,我们使用者要如何做才能用它来解决问题呢?

MapReduce解决问题有两个阶段:

1)Map阶段:

面对的是杂乱无章的原始数据、文件,它解析每个记录,封装提取数据成key/value对,并对数据进行部分逻辑处理。

2)Reduce阶段:

通过Map的处理,得到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。

用户编写的程序分成三个部分:Mapper,Reducer,Driver

1.Mapper阶段
1)用户自定义的Mapper要继承自己的父类
2)Mapper的输入数据是KV对的形式(KV的类型可自定义)
3)Mapper中的业务逻辑写在map()方法中
4)Mapper的输出数据是KV对的形式(KV的类型可自定义)
5)map()方法对每一个<K,V>调用一次

2.Reducer阶段
1)用户自定义的Reducer要继承自己的父类
2)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
3)Reducer的业务逻辑写在reduce()方法中
4)Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法

3.Driver阶段
MapReduce程序的入口,整个程序需要一个Drvier来进行提交,提交的是一个描述了各种必要信息的job对象。

wordcount案例

假定我们有一个文本,如图:

《You Have Only One Life》

我们可以看到是英文文本,并且是以空格分隔。

我们有这样一个需求:

要求计算出文本中每个单词的出现次数。

MapReduce流程、原理

在这里插入图片描述

从图中我们可以清楚知道MapReduce内部是如何工作的:

1)首先,读取文件,每一次读取一行,解析成key/value对,默认key是该行的起始偏移量,value是该行的内容。

2)将value按照指定的分隔符切分,这里是用空格切分的,并将每个单词计数1.

3)将Map结果写入缓存。

4)shuffle阶段,这里先不谈,shuffle较复杂。

5)Reduce读取Map输出结果作为自己的输入。

6)Reduce进行分组。按照key相同的,分为一组。

7)将value值迭代累加,最后写出。

编码实现

Mapper

package wcCount_test;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMap extends Mapper<LongWritable, Text,Text, IntWritable> {
    Text k = new Text();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    
        //转成string类型
        String line = values.toString();//英文
        //String line = new String(value.getBytes(),0,value.getLength(),"GBK");中文
        
        //按空格切分
        String[] words = line.split(" ");

        //将每个单词遍历,并将其计数1,然后写出
        for(String word:words){
            k.set(word);
            context.write(k,new IntWritable(1));
        }

    }
}


Reducer

package wcCount_test;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;



public class WordCountReduce extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
    
        int sum = 0;
        //将key相同的一组,value累加
        for(IntWritable value :values){
            sum += value.get();

        }
        //写出
        context.write(key,new IntWritable(sum));
    }
}

Driver

package wcCount_test;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

   public class  WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        args = new String[]{"C:\\Users\\administered\\Desktop\\testpro\\word.txt","C:\\Users\\administered\\Desktop\\testpro\\result"};

        //获取配置信息
        Configuration con = new Configuration();
        Job job = Job.getInstance(con);
        
        //设置驱动类
        job.setJarByClass(WordCountDriver.class);
        //设置Mapper类
        job.setMapperClass(WordCountMap.class);
        //设置Reducer类
        job.setReducerClass(WordCountReduce.class);

        //设置Mapper输出的key value类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //设置Mapper输出的key value类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //设置文件输入、输出路径
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        job.waitForCompletion(true);

    }
}

至此,wordcount案例结束,

最后,有什么疑惑可以在下方留言讨论,

谢谢支持!

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值