MapReduce入门之wordcount

最新推荐文章于 2024-09-29 19:02:21 发布

Deniece_X

最新推荐文章于 2024-09-29 19:02:21 发布

阅读量925

点赞数

分类专栏： mapreduce 文章标签：大数据 mapreduce 海量数据单词数量统计

本文链接：https://blog.csdn.net/deniece_x/article/details/78443960

版权

mapreduce 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

MapReduce入门之wordcount

先下流行的大数据，主要需要两个处理方法。1、海量数据的存储，2、海量数据的计算。

其中，使用HDFS完成海量数据的分布式储存，而海量数据的计算交给MapReduce来进行。

MapReduce简介

1、定义

MapReduce是一个使用简单的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠的容错式并行处理TB级的数据集。

2、特点

1、实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量的PC机器上运行。
2、当计算资源不足时，可以通过简单的增加机器就可以扩展它的计算能力。
3、它的高容错性使他可以部署在廉价的PC机器上。hadoop内部可以自行完成，失败节点任务转移到另一个节点运行，完全不需要人工的参与。

3、不适合使用MapReduce的计算

1、实时计算——无法快速返回结果
2、流失计算——MapReduce的输入是静态的，数据源必须是静态的。
3、DAG（有向图）计算——一种反馈机制

4、架构

MapReduce采用Master/Slave的架构。Map输入整个算法的输入。Reduce输出整个算法的最终输出结果。
四个组成部分包括：Client、JobTracker、TaskTracker、Task

5、执行流程

Mapper的数量是不可以设置的，但是Reduce的数量是自行设置的。

这里写图片描述

InputFormat->mapper->combin->partition->reducer->OutputFormat

wordcount—-划分文档中的单词数量

准备工作：
在本地建立一个文件。写入重复内容。如：Hello Mapreduce，Hello Study，Hello Deniece。
然后上传到hdfs上（hadoop fs -put Mapreduce /MapReduce）
新建三个类：wordcount类、MyMapper类、MyReduce类。分别编写如下代码来进行单词数量统计。

第一个wordcount类：

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class myMapReduce {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = new Job(conf);
        job.setJarByClass(myMapReduce.class);
        //文件输入    /MapReduce  必须存在
        FileInputFormat.addInputPath(job, new Path("/MapReduce"));
        //文件输出    /Reduce     不存在 执行结束后，会出现的是log——xtt 目录
        //目录下文件存有输出结果
        FileOutputFormat.setOutputPath(job, new Path("/log_xtt"));

        //设置Map  Reduce  两个类
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);

        //设置Key为Text（String）类型
        job.setOutputKeyClass(Text.class);
        //设置Value为IntWritable（int）类型
        job.setOutputValueClass(IntWritable.class);
        //执行
        job.waitForCompletion(true);
    }
}

第二个MyMapper类:

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
    protected void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException
    {
        //value值为：文档里面每一行的字符串
        //Text value 是一整行的数据Map源码会自动循环调用此函数只到把每一行都读入进来。
        String[] str = value.toString().split(" ");
        for(String ss:str)
        {
          context.write(new Text(ss),new IntWritable(1));   
        //不知道把结果发给谁，用上下文
        }
    }
}

第三个MyReduce类：

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MyReduce extends Reducer<Text,IntWritable,Text,IntWritable>{
    protected void reduce(Text key,Iterable<IntWritable> values,Context context) {
        int sum = 0;
        //转换成常用的迭代器，迭代相加。
        Iterator<IntWritable> it = values.iterator();
        while(it.hasNext())
        {
            sum = sum+it.next().get();
        }
        try {
            context.write(key, new IntWritable(sum));
        } catch (IOException | InterruptedException e) {
            e.printStackTrace();
        }
    }
}