分布式计算框架Map/Reduce

最新推荐文章于 2024-07-08 09:57:31 发布

Iiversse

最新推荐文章于 2024-07-08 09:57:31 发布

阅读量590

点赞数 3

分类专栏：初学Hadoop 文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/qq_58765786/article/details/123721796

版权

初学Hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.概念说明

MapReduce是一种编程模型,是面向大数据并行处理的计算模型、框架和平台

MapReduce是一个基于集群的高性能并行计算平台。

MapReduce是一个并行计算与运行的软件框架。

MapReduce是一个并行程序设计模型与方法。

2.特点特征

特点：

1.分布可靠，对数据集的操作分发给集群中的多个节点实现可靠性，每个节点周期性返回它完成的任务和最新的状态

2.封装了实现细节，基于框架API编程，面向业务展开分布式编码

3.提供跨语言编程的能力

特征：

1、向“外”横向扩展，而非向“上”纵向扩展

2、失效被认为是常态

3、移动计算，把处理向数据迁移(数据本地性)

4、顺序处理数据、避免随机访问数据

5、推测执行

6、平滑无缝的可扩展性

7、为应用开发隐藏系统底层细节

3.应用场景

各大运营商
中大型互联网公司，如BAT、京东、乐视、美团等
金融银行保险类公司
各大云平台的分布式计算框架
其他本地系统无法承载计算能力的应用

4.代码实现

WordCount代码实现

Map阶段

Mapper：是MapReduce计算框架中Map过程的封装
Text：Hadoop对Java String类的封装，适用于Hadoop对文本字符串的处理
IntWritable：Hadoop对Java Integer类的封装，适用于Hadoop整型的处理
Context：Hadoop环境基于上下文的操作对象，如Map中key/value的输出、分布式缓存数据、分布式参数传递等
StringTokenizer：对String对象字符串的操作类，做基于空白字符的切分操作工具类

public class WordCountMapper extends Mapper<Object, Text, Text, IntWritable> {

    // 重写map方法
    @Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        StringTokenizer str = new StringTokenizer(value.toString());
        // 遍历结果
        while (str.hasMoreTokens()) {
            String wordStr = str.nextToken();
            // 构造key和value，key就是单词，value是1
            Text word = new Text(wordStr);
            IntWritable intWritable = new IntWritable(1);
            // 做为map阶段的输出，<word,1>
            context.write(word, intWritable);
        }
    }
}

Reduce阶段

Reducer：是MapReduce计算框架中Reduce过程的封装

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    /**
     * @param key key
     * @param values 这个key对应的所有value的集合
     * @param context 上下文
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable value : values) {
            // 求和过程
            sum += value.get();
        }
        // 输出了求和的结果
        context.write(key,new IntWritable(sum));
    }
}

Driver阶段

Configuration：与HDFS中的Configuration一致，负责参数的加载和传递
Job：作业，是对一轮MapReduce任务的抽象，即一个MapReduce的执行全过程的管理类
FileInputFormat：指定输入数据的工具类，用于指定任务的输入数据路径
FileOutputFormat：指定输出数据的工具类，用于指定任务的输出数据路径

public class WordCountDriver {
    public static void main(String[] args) throws Exception{
        // 1. 创建配置文件
        Configuration conf = new Configuration();
        // 2. 创建Job任务
        Job job = Job.getInstance(conf,"kxr-wordcount");
        // 3. 设置对应类，比如Driver,Mapper,Combine,Ruducer
        job.setJarByClass(WordCountDriver.class);
        job.setMapperClass(WordCountMapper.class);
        job.setCombinerClass(WordCountReducer.class);
        job.setReducerClass(WordCountReducer.class);
        // 4. 设置输出的kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // 5. 指定输入和输出的目录
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        // 6. 运行任务
        System.exit(job.waitForCompletion(true)?0:1);
    }
}

MapReduce的运行流程

MapReduce的主要功能

1.数据划分和计算任务调度

系统自动将一个作业(Job)待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务(Task)，并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点)，同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制

2.数据/代码互相定位

为了减少数据通信，一个基本的原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移)，但尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟

3.系统优化

为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理；一个Reduce节点所处理的数据可能会来自多个Map节点，为了避免Reduce计算阶段发生数据处理不平衡，Map节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个Reduce节点；此外，系统还进行一些性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果。

4.出错检测和恢复

以低端的商用服务器构成的大规模MapReduce计算集群中，节点硬件(主机、磁盘、内存等)出错和软件出错是常态，因此MapReduce需要能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务。同时系统还将维护数据存储的可靠性，用多备份冗余存储机制提高数据存储的可靠性，并能及时检测和恢复出错的数据。

MapReduce的运行流程

由上图可以看到MapReduce执行下来主要包含这样几个步骤：

1) 首先正式提交作业代码，并对输入数据源进行切片

2) master调度worker执行map任务

3) worker当中的map任务读取输入源切片

4) worker执行map任务，将任务输出保存在本地

5) master调度worker执行reduce任务，reduce worker读取map任务的输出文件

6) 执行reduce任务，将任务输出保存到HDFS

详细运行流程

WordCount运行图解

MapReduce将作业的整个运行过程分为两个阶段：Map阶段Reduce阶段。

Map阶段由一定数量的Map Task组成，流程如下：

输入数据格式解析：InputFormat
输入数据处理：Mapper
数据分区：Partitioner
数据按照key排序
本地规约：Combiner（相当于local reducer，可选）
将任务输出保存在本地

Reduce阶段由一定数量的Reduce Task组成，流程如下：

数据远程拷贝
数据按照key排序和文件合并merge
数据处理：Reducer
数据输出格式：OutputFormat

通常我们把从Mapper阶段输出数据到Reduce阶段的reduce计算之间的过程称之为shuffle。

Iiversse

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
分布式计算框架Map/Reduce

1.概念说明MapReduce是一种编程模型,是面向大数据并行处理的计算模型、框架和平台MapReduce是一个基于集群的高性能并行计算平台。MapReduce是一个并行计算与运行的软件框架。MapReduce是一个并行程序设计模型与方法。2.特点特征特点：1.分布可靠，对数据集的操作分发给集群中的多个节点实现可靠性，每个节点周期性返回它完成的任务和最新的状态2.封装了实现细节，基于框架API编程，面向业务展开分布式编码3....
复制链接

扫一扫