3.MR应用_经典案例WordCount

最新推荐文章于 2024-01-09 17:03:03 发布

qq_15014327

最新推荐文章于 2024-01-09 17:03:03 发布

阅读量1.7k

点赞数 1

分类专栏： MapReduce

本文链接：https://blog.csdn.net/qq_15014327/article/details/83033414

版权

本文详细介绍了MapReduce的工作流程，包括Map阶段的输入数据处理、数据分组、排序和本地规约，以及Reduce阶段的数据远程拷贝、排序和处理。此外，还列举了MapReduce的相关Shell命令，如mapred job和JobHistoryServer的管理。

摘要由CSDN通过智能技术生成

一.MapReduce WordCount

MapReduce将作业的整个运行过程分为两个阶段：Map阶段Reduce阶段。

Map阶段由一定数量的Map Task组成，例如：

输入数据格式解析：InputFormat
输入数据处理：Mapper
数据分组：Partitioner
数据按照key排序
本地规约：Combiner（相当于local reducer，可选）
将任务输出保存在本地

Reduce阶段由一定数量的Reduce Task组成，例如：

数据远程拷贝
数据按照key排序
数据处理：Reducer
数据输出格式：OutputFormat

通常我们把从Mapper输出数据到Reduce读取数据之间的过程称之为shuffle。在shuffle过程中，我们把各个Mapper的相同Partitioner的数据拷贝到同一个Reducer机器节点上，进行合并和排序。

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  //自定义Mapper类
  public static class TokenizerMapper
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private

最低0.47元/天解锁文章

qq_15014327

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
3.MR应用_经典案例WordCount

一.MapReduce WordCountMapReduce将作业的整个运行过程分为两个阶段：Map阶段Reduce阶段。Map阶段由一定数量的Map Task组成，例如：输入数据格式解析：InputFormat 输入数据处理：Mapper 数据分组：Partitioner 数据按照key排序本地规约：Combiner（相当于local reducer，可选）将任务输出保...
复制链接

扫一扫

专栏目录