MapperReduce的使用及高级功能-CSDN博客

本文链接：https://blog.csdn.net/cp_mark/article/details/80216827

本文详细介绍了Yarn调度MapReduce的过程，包括ResourceManager和NodeManager的角色，以及FIFO、Capacity和Fair Scheduler的资源分配方式。接着探讨了MapReduce的原理和运用，通过wordcount实例展示了Mapper和Reducer的运作，以及自定义排序。进一步讲解了分区Partition的概念，通过代码实现了MapReduce中的分区功能。此外，还讨论了Combiner的作用和限制，以及Shuffle的综合功能，包括分区、合并和排序。

摘要由CSDN通过智能技术生成

涉及到的知识：

Yarn调度MapReduce的过程
Mapper
Reduce
排序
分区
Combiner
Shuffle

Yarn调度MapReduce的过程

Yarn和MapReduce的关系，就跟我们web项目中和tomcat的关系一样，Yarn是MapReduce运行的容器。下面我们先介绍一下Yarn的一些概念。

Yarn也是主从结构：ResourceManager（主节点）、NodeManager（从节点–真正干活的）。

（1）ResourceManager资源管理器

接收客户端的请求：执行任务
分配资源
分配任务

（2）NodeManager阶段管理器（运行任务MapReduce）

从DataNode上获取数据，执行任务

下面来一张Yarn调度MapReduce的原理图：

Yarn调度MapReduce任务的过程

在原理图里面涉及到一个资源分配的关系，Yarn资源分配的方式有三种：

FIFO Scheduler：先来先得。缺点：没有考虑任务的优先级
Capacity Scheduler：容器管理。
Fair Scheduler：公平调度。注意：安装配置Hive on Spark，需要配置Yarn为Fair Scheduler

前提：假设每个任务具有相同的优先级，平均分配系统的资源（不过可以配置任务权重，把优先级考虑进去了）

后面会涉及到这一方面的问题，到时候在说明。

MapReduce的原理和运用

在Hadoop背景知识中，我们已经介绍过什么是MapReduce，并且在Hadoop环境搭建里面运行过系统的wordcount jar，获取到以下结果：
伪分布环境下的wordcount结果

现在我们通过详细分析wordcount的MapReduce过程来实现自己的wordcount程序，并且加入排序（默认是字典顺序，即上面的结果，我们将其改为逆字典顺序）。在写代码之前我们先来分析wordcount的MapReduce流程：

WordCount数据处理过程

从上面的原理图我们可以看出一共是分为两个阶段：Mapper、Reduce，Mapper的输出作为Reduce的输入，Reduce完成之后输出到HDFS。下面我们就来实现一个自己的MapReduce：

//Mapper                                k1          v1    k2      v2
class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable> {

    /**
     *  context表示Mapper的上下文
     *  上文：HDFS
     *  下文：Mapper
     */
    @Override
    protected void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
        //获取数据:I love Beijing
        String data = v1.toString();

        //分词
        String[] words = data.split(" ");

        //输出k2 v2
        for (String word : words) {
            context.write(new Text(word),new IntWritable(1));
        }
    }
}

// Reduce                                k3     v3        k4     v4
class WordCountReduce extends Reducer<Text,IntWritable,Text,IntWritable> {

    /**
     *  context表示Reducer的上下文
     *  上文：Mapper
     *  下文：HDFS
     */
    @Override
    protected void reduce(Text k3, Iterable<IntWritable> v3, Context context) throws IOException, InterruptedException {
        //对v3求和
        int total = 0;
        for (IntWritable v : v3) {
            total += v.get();
        }

        //输出        k4单词        v4频率
        context.write(k3,new IntWritable(total));
    }
}

//自己的比较器（根据不同类型，继承不同的Comparator，这里使用过的是Text）
class MyNumberComparator extends Text.Comparator {

    @Override
    public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
        //定义自己的排序比较规则：改成降序
        return -super.compare(b1, s1, l1, b2, s2, l2);
    }
}

//程序入口
class WordCountMain {

    public static void main(String[] args) throws Exception{
        // 创建一个job和任务入口
        Job job = Job.getInstance(new Configuration());
        job.setJarByClass(WordCountMain.class);  //main方法所在的class

        //指定job的mapper和输出的类型<k2 v2>
        job.set